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INTRODUCTION 


出 版 说 明 


随 着 国家 信息 化 步伐 的 加 快 和 高 等 教育 规模 的 扩大 ,社会 对 计算 机 专业 
人 才 的 需求 不 仅 体现 在 数量 的 增加 上 ,而 且 体现 在 质量 要 求 的 提高 上 ,培养 
具有 研究 和 实践 能 力 的 高 层次 的 计算 机 专业 人 才 已 成 为 许多 重点 大 学 计算 
机 专业 教育 的 主要 目标 。 目 前 ,我 国共 有 16 个 国家 重点 学 科 , 名 个 博士 点 一 
级 学 科 、 台 个 博士 点 二 级 学 科 集 中 在 教育 部 部 属 重点 大 学 ,这 些 高 校 在 计算 
机 教学 和 科研 方面 具有 一 定 优势 ,并 且 大 多 以 国际 著名 大 学 计算 机 教育 为 参 
照 系 ,具有 系统 完善 的 教学 课程 体系 教学 实验 体系 教学 质量 保证 体系 和 人 
才 培 养 评估 体系 等 综合 体系 ,形成 了 培养 一 流 人 才 的 教学 和 科研 环境 。 

重点 大 学 计算 机 学 科 的 教学 与 科研 氛围 是 培养 一 流 计算 机 人 才 的 基 
础 ,其 中 专业 教材 的 使 用 和 建设 则 是 这 种 氛围 的 重要 组 成 部 分 ,一 批 具 有 
学 科 方 向 特色 优势 的 计算 机 专业 教材 作为 各 重点 大 学 的 重点 建设 项 目 成 
果 得 到 肯定 。 为 了 展示 和 发 扬 各 重点 大 学 在 计算 机 专业 教育 上 的 优势 , 特 
别 是 专业 教材 建设 上 的 优势 ,同时 配合 各 重点 大 学 的 计算 机 学 科 建 设 和 专 
业 课 程 教学 需要 ,在 教育 部 相关 教学 指导 委员 会 专家 的 建议 和 各 重点 大 学 
的 大 力 支持 下 ,清华 大 学 出 版 社 规划 并 出 版 本 系列 教材 。 本 系列 教材 的 建 
设 旨 在 “汇聚 学 科 精 英 、 引 领 学 科 建设 .培育 专业 英才 ”, 同 时 以 教材 示范 各 
重点 大 学 的 优秀 教学 理念 ,教学 方法 、 教 学 手段 和 教学 内 容 等 。 

本 系列 教材 在 规划 过 程 中 体现 了 如 下 一 些 基本 组 织 原 则 和 特点 。 

1. 面向 学 科 发 展 的 前 沿 , 适 应 当前 社会 对 计算 机 专业 高 级 人 才 的 培养 需 
求 。 教 材 内 容 以 基本 理论 为 基础 ,反映 基本 理论 和 原理 的 综合 应 用 ,重视 实 
践 和 应 用 环节 。 

2 反映 教学 需要 ,促进 教学 发 展 。 教 材 要 能 适应 多 样 化 的 教学 需要 , 正 
确 把 握 教 学 内 容 和 课程 体系 的 改革 方向 。 在 选择 教材 内 容 和 编写 体系 时 注 
意 体现 素质 教育 、 创 新 能 力 与 实践 能 力 的 培养 ,为 学 生 知 识 、 能 力 . 素 质 协调 
发 展 创造 条 件 。 

3 实施 精品 战略 ,突出 重点 ,保证 质量 。 规 划 教材 建设 的 重点 依然 是 专 
业 基础 课 和 专业 主干 课 ; 特别 注意 选择 并 安排 了 一 部 分 原来 基础 比较 好 的 优 
秀 教 材 或 讲义 修订 再 版 ,逐步 形成 精品 教材 ; 提倡 并 鼓励 编写 体现 重点 大 学 
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计算 机 专业 教学 内 容 和 课程 体系 改革 成 果 的 教材 。 

4 主张 一 纲 多 本 ,合理 配套 。 专 业 基础 课 和 专业 主干 课 教材 要 配套 ,同一 门 课程 可 以 有 
多 本 具有 不 同 内 容 特 点 的 教材 。 处 理 好 教材 统一 性 与 多 样 化 的 关系 ; 基本 教材 与 辅助 教材 
以 及 教学 参考 书 的 关系 ; 文字 教材 与 软件 教材 的 关系 ,实现 教材 系列 资源 配套 。 

5 依靠 专家 ,择优 落实 。 在 制订 教材 规划 时 要 依靠 各 课程 专家 在 调查 研究 本 课程 教材 
建设 现状 的 基础 上 提出 规划 选 题 。 在 落实 主编 人 选 时 ,要 引入 竞争 机 制 ,通过 申报 、 评 审 确 
定 主编 。 书 稿 完成 后 要 认真 实行 审 稿 程序 ,确保 出 书 质 量 。 
繁荣 教材 出 版 事业 ,提高 教材 质量 的 关键 是 教师 。 建 立 一 支 高 水 平 的 以 老 带 新 的 教材 
编写 队伍 才能 保证 教材 的 编写 质量 ,希望 有 志 于 教材 建设 的 教师 能 够 加 入 到 我 们 的 编写 队 
伍 中 来 。 


教材 编 委 会 


FOREWORD 


前 言 


从 200 年 开始 ,对 等 网 络 (Peer-to-Peer Network, PP Nebwork) 一 直 是 计算 机 和 互 
联网 领域 最 受 关注 的 热门 话题 之 一 。《 财 富 ) 杂 志 将 P 多 技术 列 为 影响 Intemet 
未 来 的 四 项 科技 之 一 ,著名 的 英特尔 公司 也 给 了 Pp 技术 极 高 的 评价 , 称 它 为 
“第 三 代 网 络 革命 "。 对 等 网 络 将 分 布 于 世界 各 地 的 个 人 计算 机 组 织 起 来 , 通 
过 交换 进行 资源 和 服务 的 共享 。 这 些 资源 和 服务 包括 信息 交换 ,高 速 缓存 、 
处 理 能 力 、 存 储 空间 等 。 在 对 等 网 络 中 ,每 个 结 点 自治 又 彼此 依赖 ,自治 是 指 
每 个 结 点 独立 决定 自己 的 行为 而 不 受 其 他 如 集中 式 授 权 机 构 的 控制 ,同时 每 
个 结 点 又 需要 相互 协作 获得 信息 资源 .计算 资源 等 。 对 等 网 络 具 有 自 组 织 特 
性 ,表现 为 网 络 具 有 高 度 的 拓扑 弹性 和 容错 性 。 通 常 一 个 对 等 网 络 规模 可 达 
到 几 十 万 甚至 上 百 万 个 计算 结 点 ,参与 的 计算 结 点 以 一 种 松散 方式 进行 组 
织 ,非常 适合 广域网 络 和 nemt 的 应 用 ,并 且 已 经 涌现 了 不 少 非常 具有 影响 
力 的 应 用 系统 ,如 PRLie.PPStbreaam. 杀 .eMule.Sepe 等 。 事 实 上 ,对 等 网 络 已 经 在 文 
件 共享 与 内 容 分 发 ,分布 式 数据 存储 、 分 布 式 计 算 、 协 同 工 作 与 服务 共享 、 分 
布 式 深度 搜索 引擎 、 即 时 通信 以 及 应 用 层 组 播 等 多 个 领域 得 到 了 广泛 应 用 。 
对 等 网 络 不 仅 是 一 种 技术 体系 ,更 是 一 种 思想 变革 。 它 深刻 影响 了 Intervet 的 
诸多 应 用 ,被 视 为 下 一 代 Intemet 应 用 的 基础 。 

随 着 计算 机 技术 和 Internet 网 络 技 术 的 发 展 ,一 方面 , 随 着 网 络 带宽 的 不 
断 拓宽 和 计算 机 处 理 能 力 的 不 断 增强 .很 多 计算 机 资源 的 利用 效率 远 没 有 得 
到 发 挥 ; 另 一 方面 ,由 于 互联 网 上 的 信息 资源 的 不 断 增 长 ,即便 是 Google 这 样 
功能 强大 的 搜索 引擎 也 只 能 搜索 极 少 部 分 的 内 容 。 网 格 技 术 就 如 何 更 好 地 
利用 现 有 各 种 计算 机 软 硬 件 资源 和 网 络 信 息 资源 提出 了 一 个 很 好 的 解决 思 
B. DER 9 年 代 中 期 ,网 格 首次 被 提出 用 于 描述 科学 和 工程 分 布 式 计 算 的 
基础 设施 , 它 把 计算 资源 .数据 存储 设施 、 广 域 网 络 、 仪 器 设备 等 连 成 有 机 的 
整体 ,方便 用 户 使 用 这 个 基础 设施 中 的 任何 资源 。 网 格 系 统 的 构建 需要 研究 
信息 服务 、 数 据 管 理 、 安 全 机 制 等 技术 。 另 外 ,网 格 资源 的 动态 性 、 异 构 性 和 
自治 性 ,使 得 网 格 资源 提供 者 和 使 用 者 具有 对 等 网 络 的 特点 ,因此 有 必要 将 
对 等 网 络 方法 引入 到 网 格 资源 管理 中 。 为 此 ,本 书 基于 对 等 网 络 技术 提出 了 
一 系列 网 格 资源 管理 和 调度 策略 。 
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云 计 算 概念 是 由 Google 提 出 的 ,这 是 一 个 美丽 的 网 络 应 用 模式 。 广 义 上 的 云 计 算是 指 
服务 的 交付 和 使 用 模式 , 指 通过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 的 服务 。 这 种 服务 可 以 
是 开 和 软件 、 互 联网 相关 的 ,也 可 以 是 任意 其 他 的 服务 , 它 具 有 超大 规模 .虚拟 化 `. 可 靠 安 全 
等 独特 功效 。 云 计算 的 出 现 为 信息 技术 领域 带 来 了 新 的 挑战 ,也 为 信息 技术 产业 带 来 了 新 
的 机 遇 。 云 计算 的 目标 是 将 计算 和 存储 简化 为 像 公共 的 水 和 电 一 样 易 用 的 资源 ,用 户 只 要 
连 上 网 络 即 可 方便 地 使 用 , 按 量 付费 。 云 计算 提供 了 灵活 的 计算 能 力 和 高 效 的 海量 数据 分 
析 方 法 ,企业 不 需要 构建 自己 专用 的 数据 中 心 就 可 以 在 云 平台 上 运行 各 种 各 样 的 业务 系统 ， 
这 种 创新 的 计算 模式 和 商业 模式 吸引 了 产业 界 和 学 术 界 的 广泛 关注 。 本 书 在 介绍 云 计 算 相 
关 概 念 的 基础 上 ,详细 研究 探讨 了 云 计 算 相 关 的 分 布 式 文件 系统 (FS 架构 ,并 针对 云 计 算 平 
人 台 的 安全 问题 进行 深入 探讨 ,结合 虚拟 化 技术 对 云 计 算 平台 的 安全 性 进行 了 研究 。 

有 感 于 对 等 网 络 、 网 格 计算 和 云 计算 技术 的 迅速 发 展 ,以 及 研究 开发 人 员 对 此 领域 进 一 
步 研究 开发 的 需求 ,作者 在 自身 研究 工作 积累 的 基础 上 精心 编写 了 本 书 , 让 读者 分 享 我 们 学 
习 与 研究 工作 的 经 验 和 成 果 。 本 书 不 仅 可 以 使 初学 者 能 够 了 解 领域 内 的 研究 现状 ,也 可 以 
为 有 一 定 研究 基础 的 同行 提供 较为 系统 的 相关 的 技术 或 方案 ,弥补 这 一 领域 内 国内 研究 资 
料 相 对 匮乏 的 境况 ,缩短 国内 学 者 的 研究 水 平 与 国际 一 流水 平 的 差距 ,贡献 出 更 多 的 具有 自 
主 知识 产权 的 研究 成 果 。 

本 书 共 分 10 章 ,各 章 主要 内 容 介绍 如 下 : 

第 1 章 介 绍 计算 模式 演变 。 本 章 首先 介绍 计算 模式 的 发 展 历程 ,详细 分 析 了 过 去 几 年 
人 们 先后 提出 的 VS 计算 .BS 计算 、 网 格 计算 、 服 务 计 算 、 对 等 计算 、 云 计算 等 计算 模式 ,分 析 
了 网 格 计算 和 云 计算 的 区 别 ,最 后 阐述 了 本 书 的 研究 脉络 以 及 层次 结构 。 

第 2 章 介 绍 对 等 网 络 研究 进展 。 对 等 网 络 系统 是 一 个 新 兴 的 研究 领域 , 近 些 年 得 到 了 
迅速 发 展 。 本 章 首先 对 对 等 网 络 进行 了 概述 性 介绍 ,然后 重点 介绍 了 对 等 网 络 在 路 由 、 拓 扑 
和 查询 这 三 方面 的 研究 工作 和 研究 进展 。 

第 3 章 讨 论 对 等 网 络 拓 扑 及 优化 。 本 章 首先 针对 H 拓扑 模型 在 动态 网 络 中 性 能 下 降 
问题 ,提出 了 一 种 改善 的 HT 模型。ST 模 型 利用 对 等 网 络 结 点 存在 的 会 话 异 构 性 ,将 动态 结 
点 聚 簇 在 稳定 结 点 ,从 而 降低 网 络 动态 结 点 对 于 DHT 拓 扑 的 强 干 扰 性 。 仿 真实 验 显示 了 H 
模型 能 够 有 效 减 少 对 等 网 络 系统 的 拓扑 维护 开销 以 及 提高 系统 稳定 性 和 数据 可 用 性 。 然 
后 ,基于 小 世界 模型 理论 提出 了 可 应 用 于 对 等 网 络 路 由 优化 的 一 种 概率 缓存 链 模式 ,通过 理 
论 分 析 以 及 在 静态 和 动态 网 络 的 实验 ,证 明了 此 模式 在 附加 少量 开销 的 情况 下 ,对 DT 路 由 
的 性 能 具有 较 大 的 改善 。 最 后 ,对 0hord 算 法 的 最 优 路 由 进行 深入 分 析 , 提 出 hord 协 议 的 最 
优 路 由 表 结 构 , 给 出 基于 最 优 路 由 表 结 构 的 路 由 算法 ,并 证 明 Cord 在 满 环 情况 下 三 倍数 路 
由 表 构 造 是 最 优 路 由 表 结 构 。 在 Cord 不 满 环 的 情况 下 ,对 路 由 表 进 行 重 构 ,引入 多 种 重 构 
策略 ,并 对 其 进行 仿真 实验 ,证 明 在 重 构 后 的 路 由 算法 切实 有 效 。 

第 4 章 讨 论 对 等 网 络 信息 检索 。 本 章 首先 介绍 常用 的 信息 检索 所 涉及 的 分 类 算法 ,对 
PP 文件 的 索引 发布 采用 户 模式 确定 所 涉及 的 分 类 问题 进行 了 研究 ,提出 了 基于 分 类 器 融 
合 的 文本 分 类 方法 m9MBSMKN。 该 方法 将 3MBSM 方 法 与 KN 方法 结合 起 来 ,通过 两 个 分 类 器 
在 不 同 空间 的 分 类 行为 ,使 各 个 分 类 器 可 以 形成 优势 互补 ,从 而 提高 超 文本 分 类 的 精度 。 接 
下 来 介绍 多 关键 字 检索 所 涉及 的 相关 技术 和 研究 现状 ,然后 针对 于 目前 多 关键 字 检 索 系 统 
的 不 足 , 提 出 基于 检索 关键 词 关联 的 关键 词 集 发 布 的 多 关键 词 检索 系统 。 
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第 5 章 介绍 网 格 计 算 研究 进展 。 本 章 分 析 网 格 计 算 的 研究 重点 和 研究 目的 , 即 为 了 更 
好 地 进行 网 格 资源 管理 和 调度 ,实现 网 格 系统 的 实时 动态 调度 和 负载 均衡 ; 说 明 现 有 的 网 
格 资源 管理 和 调度 策略 的 基本 原理 以 及 在 动态 环境 中 的 局 限 性 ,进而 指出 进行 网 格 动态 资 
源 管 理 和 调度 策略 研究 的 背景 和 动机 。 本 章 还 介绍 网 格 资源 管理 体系 结构 的 基本 概念 和 主 
要 研究 内 容 , 分 析 目 前 的 研究 存在 的 一 些 问题 ,最 后 阐述 本 书 网 格 计算 部 分 的 主要 研究 内 容 
和 创新 点 。 

第 6 章 讨 论 网 格 资源 管理 体系 结构 。 本 章 首先 介绍 网 格 发 展 的 新 特征 ,这 些 特征 是 本 
书 提出 的 模型 和 算法 的 一 个 重要 基础 ; 对 现 有 网 格 资源 管理 采用 的 基本 体系 结构 、 模 型 做 
了 详细 的 分 析 ,指出 它们 存在 的 问题 ; 在 分 析 现 有 资源 管理 体系 结构 由 于 不 能 反映 网 格 资 
源 的 动态 性 和 自治 性 而 影响 资源 调度 效果 的 基础 上 ,提出 基于 对 等 网 络 技术 的 混合 资源 管 
理 模 型 ,该 模型 可 以 使 得 网 格 系统 具有 很 好 的 鲁 棒 性 和 容错 性 。 最 后 介绍 使 用 有 向 图 进行 
基于 超级 结 点 对 等 网 络 的 网 格 系统 overlay rework 拓 扑 表 示 的 方法 。 

第 7 章 分 析 网 格 资源 调度 算法 。 本 章 分 四 部 分 对 网 格 资源 调度 算法 进行 研究 。 第 一 部 
分 设计 一 个 专用 计算 网 格 环境 中 的 实时 资源 调度 算法 rresMatch。 该 算法 利用 树 匹 配 完成 资 
源 和 任务 间 的 映射 ,并 且 通 过 充分 利用 overlay nework 拓 扑 提供 的 路 由 信息 来 提高 算法 调度 效 
率 ,降低 RP。 最 后 通过 理论 分 析 和 大 量 的 实验 证 明基 于 树 匹 配 的 rlresMatdh 算 法 对 于 提高 
格 动态 资源 调度 是 非常 有 效 的 。 第 二 部 分 分 析 现 有 资源 管理 方法 均 采 用 信息 收集 的 方式 ， 
结合 网 格 的 高 度 动 态 性 特征 ,指出 可 以 将 资源 管理 和 调度 问题 转化 为 服务 发 现 问题 ,然后 在 
分 析 现 有 的 集中 式 服务 发 布 和 发 现 方法 的 基础 上 ,提出 适用 于 基于 Web Service 的 通用 网 格 系 
统 环境 的 基于 资源 发 现 的 资源 管理 和 调度 算法 ethord, 最 后 通过 理论 分 析 和 对 比 实验 证 明 该 
方法 的 有 效 性 。 第 三 部 分 研究 网 格 结 点 的 自治 性 特点 以 及 多 代理 技术 的 基本 原理 和 应 用 ， 
指出 两 个 研究 领域 的 相似 性 和 互通 性 ,可 以 借鉴 代理 的 智能 学 习 弥 补 现 有 网 格 系统 很 难 实 
现 动态 调度 和 负载 均衡 的 缺点 ,提出 一 个 基于 多 代理 协同 计算 的 网 格 资源 调度 算法 Wet, 
最 后 通过 严格 的 数学 建 模 和 实验 证 明 wot 算法 可 以 实现 网 格 系统 的 实时 资源 调度 ,并 且 
可 以 获得 好 的 负载 均衡 效果 。 第 四 部 分 介绍 [Drid 一 一 新 药 研 发 网 格 的 框架 结构 以 及 系统 
平台 的 实现 。 它 的 实现 充分 利用 了 本 章 的 研究 成 果 。[D6rid 接 受用 户 从 Wb 上 提交 的 药物 得 
选 计算 任务 ,自动 取出 和 计算 相关 的 数据 项 ,进行 并 行 任务 划分 ,然后 将 这 些 计 算 任 务 映射 
到 网 格 系统 的 各 计算 结 点 中 。DDarid 利 用 中 国 国 家 网 格 各 计算 中 心 的 集群 提供 的 空闲 计算 
力 ,进行 虚 拟 药物 筛选 实验 计算 ,在 计算 结束 后 ,Drid 会 通知 用 户 通过 Grid Portal 下 载 计算 结 
果 。 用 户 只 需要 提交 药物 筛选 所 需 的 原始 文件 ,DDarid 便 可 自动 地 进行 处 理 ,此 过 程 对 于 用 
户 完全 透明 。 

第 8 章 介 绍 云 计算 文件 系统 设计 与 实现 。 本 章 首 先 介绍 云 计 算 的 基本 概念 及 关键 技 
术 , 然 后 对 云 存储 系统 架构 进行 分 析 , 最 后 介绍 云 计 算 文件 系统 (GPS) 的 设计 与 实现 。 分 布 
式 文件 系统 (FS 是 一 种 网 络 文件 系统 , 它 分 布 在 多 个 计算 机 结 点 上 ,每 个 结 点 只 会 直接 存 取 
整个 文件 系统 的 一 部 分 。 本 章 参 考 两 个 比较 成 熟 的 [FS 架构 一 一 GFS 和 Hadoop, 设 计 并 实现 
CF5。0F5 是 一 个 面向 数据 密集 型 应 用 的 分 布 式 文件 系统 ,整个 系统 由 Mester 结 点 ,数据 结 点 和 
客户 端 组 成 ,具有 一 定 的 容错 性 和 可 扩展 性 。 

第 9 章 讨 论 计 算 安全 。 本 章 首 先 针 对 对 等 网 络 的 结 点 的 自私 行为 和 恶意 行为 ,介绍 当 
前 对 等 网 络 的 激励 机 制 、 信 任 机 制 以 及 文件 安全 机 制 的 研究 工作 。 接 下 来 ,针对 云 计 算 平 台 
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的 安全 问题 进行 深入 探讨 ,结合 虚拟 化 技术 对 云 计算 平台 的 安全 性 进行 研究 。 

第 10 章 是 总 结 与 展望 。 本 章 介 绍 三 种 计算 模式 将 来 进一步 研究 的 内 容 和 方向 。 

本 书 在 编写 过 程 中 得 到 上 海 交通 大 学 信息 安全 工程 学 院 李 建华 教授 的 关心 与 支持 ,以 
及 上 海 交 通 大 学 计算 机 科学 与 工程 系 马 范 援 教 授 的 悉心 指导 ,在 此 向 他 们 表示 训 心 的 感谢 。 
同时 衷心 感谢 清华 大 学 出 版 社 的 大 力 支持 ,感谢 编辑 为 本 书 付 出 的 辛勤 劳动 。 

对 等 网 络 、 网 格 计算 与 云 计算 涉及 领域 宽 、 发 展 快 ,本 书 取材 于 学 术 界 和 工程 技术 界 的 
一 些 研究 成 果 , 也 包括 作者 的 一 些 成 果 和 观点 。 相 关 研 究 成 果 属 于 其 他 原创 者 ,我 们 在 书 中 
均 作 了 引用 标识 。 我 们 尽量 以 客观 的 态度 对 待 任何 一 项 研究 方法 和 成 果 , 对 于 其 中 的 争议 
甚至 错误 ,希望 留待 读者 去 进一步 甄别 与 探究 。 尽 管 我 们 力求 完美 ,但 作者 水 平 有 限 ,本 书 
疏漏 .不当 与 错误 之 处 在 所 难免 ,欢迎 读者 批评 指正 。 
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计算 模式 的 演变 第 1 章 


信息 技术 的 高 速 发 展 推动 了 计算 模式 的 不 断 更 新 。 从 单机 时 代 的 主机 / 
终端 模式 文件 服务 器 时 代 的 共享 数据 模式 ,客户 机 /服务 器 时 代 的 C/S 计算 
模式 到 万 维 网 时 代 的 B/S 网 络 计 算 模 式 , 再 到 目前 的 P2P 对 等 计算 模式 以 及 
网 格 计算 模式 和 云 计算 模式 ,计算 模式 已 经 发 生 了 巨大 变化 。 


1.1 计算 模式 


20 世纪 90 年 代 , 计 算 技术 最 引 人 注 目的 进展 之 一 就 是 应 用 计算 环境 从 
集中 走向 分 布 ,其 中 ,客户 机 /服务 器 (Client/Server,C/S) 计 算 技 术 成 为 分 布 
式 计 算 的 主流 技术 。 随 着 技术 的 发 展 ,基于 C/S 计算 模式 构建 的 商用 计算 体 
系 结 构 表现 出 愈 来 愈 大 的 局 限 性 , 它 的 网 络 优势 局 限于 企业 内 部 ,难以 突破 
企业 之 间 的 组 织 边 界 ,企业 与 企业 之 间 的 信息 交流 受到 很 大 制约 ,同时 它 还 
存在 企业 软件 购置 开销 过 大 、 网 络 安全 性 较 差 等 诸多 不 足 之 处 。 这 使 得 C/S 
计算 模式 已 不 能 适应 更 高 速度 、 更 大 地 域 范围 的 数据 运算 和 处 理 。 全 球 化 、 协 
作 化 ,个 性 化 决定 了 浏览 器 /服务 器 (Browse/Server,B/S) 计 算 模 式 的 出 现 。 但 
这 种 模式 要 求 在 互联 网 上 设置 拥有 强大 处 理 能 力 和 高 带宽 的 高 性 能 计算 机 。 
计算 机 需 安装 有 高 档 的 服务 器 软件 ,再 将 大 量 的 数据 集中 存放 在 上 面 ,并 且 
还 要 安装 多 样 化 的 服务 软件 ,在 集中 处 理 数据 的 同时 其 可 以 对 互联 网 上 其 他 
PC 进行 服务 。 这 种 计算 模式 的 缺点 是 没有 有 效 地 利用 客户 端的 资源 ,包括 
处 理 器 .存储器 文件 内 容 等 。 后 来 又 出 现 了 一 种 计算 模式 , 即 对 等 Peer-to- 
Peer,P2P 计算 模式 。P2P 计算 技术 的 出 现 目的 就 是 希望 能 够 充分 利用 互联 
网 中 所 蕴含 的 潜在 计算 资源 。P2P 计算 技术 的 特征 之 一 就 是 弱化 了 服务 器 
的 作用 ,甚至 取消 服务 器 ,任意 主机 既是 服务 器 ,同时 又 是 客户 机 , 即 对 等 。 
对 等 网 络 实现 了 从 互联 网 的 最 终 使 用 者 到 主动 的 服务 提供 者 的 转变 。 

在 C/S 计算 模式 下 ,数据 通常 存储 在 有 固定 结构 的 数据 库 中 ; 在 B/S 计 
算 模式 下 ,数据 以 半 结 构 化 的 网 页 形式 表现 出 来 ; 在 P2P 计算 模式 下 ,数据 
的 表现 形式 变 成 了 无 结构 、 多 样 化 的 文件 。 在 C/S 计算 模式 下 , 随 着 数据 量 
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向 数据 库 的 数据 挖掘 应 运 而 生 。 在 B/S 计算 模式 下 , 随 着 Web 页 面 数量 的 迅速 增加 ， 
Internet 成 为 目前 最 大 的 知识 库 ,对 其 进行 模式 和 知识 的 获取 已 经 成 为 必然 趋势 ,因而 面向 
Web 挖掘 (Web Mining) 应 运 而 生 。 在 P2P 计算 模式 下 , 随 着 加 入 P2P 网 络 的 对 等 结 点 的 
迅速 增加 以 及 发 布 文件 的 急剧 增多 ,在 P2P 网 络 中 如 何 获取 自己 所 需要 的 东西 已 经 变 得 越 
来 越 困 难 ,这 时 候 , 针 对 于 P2P 文件 的 模式 和 知识 的 对 等 网 络 挖掘 (P2P Mining) 也 就 应 运 
而 生 。 

随后 出 现 的 网 格 (Grid) 计 算 模 式 是 借鉴 电力 网 (Electric Power Grid) 概 念 提出 的 ,网 格 
计算 的 最 终 目标 是 实现 用 户 在 使 用 计算 力 时 ,能 够 如 同 当 前 使 用 电能 一 样 方 便 。 当 人 们 在 
使 用 电能 时 ,无 须知 道 它 的 来 源 地 以 及 产生 的 方式 ,只 要 知道 它 是 一 种 统一 形式 的 电能 即 
可 。 类 似 地 通过 网 格 计算 ,用 户 希 望 在 使 用 计算 力 时 ,无 须 关心 计算 力 的 来 源 地 以 及 计算 设 
施 的 形式 ,计算 力 以 统一 的 形式 呈现 在 用 户 面 前 。 网 格 计算 代表 了 一 种 先进 的 技术 和 基础 
设施 ,是 分 布 式 高 性 能 计算 和 高 吞吐 量 计 算 的 主要 发 展 方向 。 

目前 正 热 的 云 计算 模式 是 此 前 并 行 计算 (Parallel Computing)、 分 布 式 计 算 
(Distributed Computing) 、 对 等 计算 和 网 格 计 算 (Grid Computing) 的 发 展 ,或 者 说 是 这 些 计 
算 机 科学 概念 的 商业 实现 。 云 计算 是 虚拟 化 (Virtualization)、 效 用 计算 (Utility 
Computing) ,基础 设施 即 服务 (IaaS) .平台 即 服务 (PaaS) 、 软 件 即 服务 (SaaS) 等 概念 混合 演 
进 并 跃升 的 结果 。 


1.2 主机 /终端 计算 


20 世纪 60 一 70 年 代 的 主机 计算 模式 是 第 一 代 计 算 模 式 , 由 大 型 机 和 多 个 与 之 相连 的 
哑 终 端 组 成 。 当 时 的 计算 模式 为 主机 /终端 模式 ( 即 集中 式 计算 模式 ), 运 行 在 主机 上 的 
UNIX 操作 系统 是 一 个 多 用 户 、 多 任务 和 多 进程 的 操作 系统 ,用 户 终端 仅仅 是 一 个 输入 输出 
接口 。 由 于 物理 设备 的 限制 ,采用 这 种 计算 模式 的 所 有 计算 数据 和 程序 都 只 能 在 主机 系统 
上 ,从 而 形成 典型 的 “集中 存储 、 集 中 计算 ”模式 。 


1.3 C/S 和 B/S 计算 


随 着 计算 机 网 络 化 技术 的 兴起 ,计算 模式 也 在 发 生变 化 。 

20 世纪 80—90 年 代 中 期 是 第 二 代 计 算 模式 ,其 显著 特征 是 计算 机 应 用 领域 被 大 大 折 
宽 ,桌面 办 公 应 用 和 数据 库 技 术 的 大 力 发 展 ,导致 协同 计算 和 分 布 式 计算 理念 迅速 蔓延 。 特 
别 随 着 C/S 计算 模式 的 兴起 ,似乎 "分布 ?成 了 解决 异种 结构 和 平台 之 间 资 源 共 享 的 最 佳 方 
法 。 在 C/S 计算 模式 中 ,服务 器 只 负责 各 种 数据 的 处 理 和 维护 ,为 各 个 客户 机 应 用 程序 管 
理 数 据 ; 客户 机 包含 文档 处 理 软件 ,决策 支持 工具 \ 数 据 查 询 等 应 用 逻辑 程序 ,通过 网 络 使 
用 SQL 语言 发 送 、. 请 求 和 分 析 从 服务 器 接收 的 数据 。 这 是 一 种 * 胖 客户 机 ”(Fat Client), 
“RIRA Ae” Thin Server) 的 网 络 结构 模式 。 然 而 ,分 布 的 理念 在 管理 和 兼容 方面 存在 不 
E: 整个 网 络 系统 和 客户 机 系统 维护 、 软 件 安装 烦琐 ,大 规模 系统 很 难 进 行 有 效 的 维护 ,而 
且 在 分 布 式 系 统 上 保持 数据 同步 是 一 项 极为 复杂 的 任务 。 
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为 解决 传统 的 两 层 式 C/S 体系 结构 中 的 这 些 固有 问题 , 便 出 现 了 三 层 或 多 层 的 计算 模 
式 , 即 客户 机 /中 间 服 务 器 /数据 库 服务 器 (应 用 服务 器 ) 模 式 。 在 这 种 三 层 式 的 体系 结构 中 ， 
客户 机 只 完成 基本 的 显示 、 输 入 和 输出 ,或 者 一 些 简 单 的 事物 处 理 ; 中 间 服 务 器 插入 到 传统 
的 C/S 体 系 中 ,完成 由 原 客 户 机 所 进行 的 数据 前 后 处 理工 作 , 并 负责 为 其 前 台 的 客户 机 提 
供 显 示 服 务 ,同时 与 后 台 的 一 个 或 多 个 数据 库 服 务 器 进行 大 量 的 数据 传递 。 客 户 机 相对 于 
中 间 服 务 器 来 说 是 一 个 C/S 关系 。 随 着 网 络 和 计算 机 技术 的 发 展 和 多 用 户 Windows NT 
操作 系统 的 问世 ,这 种 三 层 体系 的 代表 一 一 Thin-Client/Server 计算 模式 ,在 众多 的 领域 中 
得 到 了 越 来 越 广泛 的 应 用 。 

多 层 结构 计算 模式 是 把 业务 逻辑 独立 出 来 ,组 成 一 层 或 多 层 , 形 成 客户 层 . 中 间 业 务 处 
理 层 (可 由 多 层 组 成 ) 和 后 端 数据 服务 层 。 在 多 层 结构 中 ,层次 的 划分 不 是 物理 上 的 划分 ,而 
是 结构 逻辑 上 的 划分 , 按 应 用 目标 划分 。 如 果 客 户 端 要求 响 应 速度 很 快 ,业务 组 件 的 体积 较 
小 ,业务 组 件 可 以 放 在 客户 端 如 果 业 务 组 件 包 含 大 量 对 数据 库 的 操作 ,可 以 配置 在 数据 库 
服务 器 上 ,以 减少 网 络 负载 ,提高 运算 速度 ; 如 果 业 务 组 件 可 供 大 多 数 客户 机 程序 访问 , 则 
可 以 使 用 业务 组 件 构成 一 个 应 用 服务 器 供 访问 。 

B/S 计算 模式 是 一 种 从 传统 的 二 层 C/S 计算 模式 发 展 起 来 的 新 的 网 络 结构 模式 ,其 本 
质 是 三 层 结构 C/S 计算 模式 。 在 B/S 计算 模式 中 ,客户 端 运行 浏览 器 软件 。 浏 览 器 以 超 文 
本 形式 向 Web 服务 器 提出 访问 数据 库 的 要 求 , Web 服务 器 接受 客户 端 请 求 后 ,将 这 个 请 求 
转化 为 SQL 语法 ,并 交 给 数据 库 服务 器 ,数据 库 服务 器 得 到 请 求 后 ,验证 其 合法 性 ,并 进行 
数据 处 理 , 然 后 将 处 理 后 的 结果 返回 给 Web 服务 器 , Web 服务 器 再 一 次 将 得 到 的 所 有 结果 
进行 转化 , 变 成 HTML 文档 形式 ,转发 给 客户 端 浏 览 器 以 友好 的 Web 页 面 形 式 显 示 出 来 。 
B/S 网 络 结构 模式 是 基于 Intranet 的 需求 而 出 现 并 发 展 的 。 

最 初 的 集中 式 大 型 机 结构 所 采用 的 传统 终端 相对 其 主机 而 言 是 一 种 “ 瘦 型 "客户 端 , 然 
后 经 历 过 功能 强大 的 “ 胖 型 客户 端 即 PC 之 后 , 却 又 一 次 回 到 “ 瘦 型 "客户 端 。 但 这 并 非 是 
一 种 简单 的 循环 往复 ,而 是 计算 机 体系 结构 的 发 展 向 “开放 式 ? 结 构 不 断 迈 进 的 过 程 。 计 算 
模式 始 于 非常 封闭 的 集中 式 主机 ,正在 向 一 个 真正 开放 的 .与 平台 完全 无 关 的 体系 过 渡 。 


1.4 分 布 式 计算 


分 布 式 计算 是 一 门 计算 机 科学 , 它 研究 如 何 把 一 个 需要 非常 巨大 的 计算 能 力 才能 解决 
的 问题 分 成 许多 小 的 部 分 ,然后 把 这 些 部 分 分 配给 许多 计算 机 进行 处 理 , 最 后 把 这 些 计 算 结 
果 综 合 起 来 得 到 最 终 的 结果 。 最 近 的 分 布 式 计算 项 目 已 经 被 用 于 使 用 世界 各 地 成 千 上 万 位 
志愿 者 的 计算 机 的 闲置 计算 能 力 , 通 过 Internet, 可 以 分 析 来 自 外 太空 的 电信 号 ,寻找 隐蔽 
的 黑洞 ,并 探索 可 能 存在 的 外 星 智慧 生命 ; 可 以 寻找 超过 1000 万 位 数字 的 梅森 质数 ; 也 可 
以 寻找 并 发 现 对 抗 艾 滋 病 病毒 的 更 为 有 效 的 药物 。 这 些 项 目 都 很 庞大 ,需要 惊人 的 计算 量 ， 
仅 由 单一 的 计算 机 或 是 个 人 在 一 个 能 让 人 接受 的 时 间 内 计算 完成 是 绝对 不 可 能 的 。 

分 布 式 计算 就 是 在 两 个 或 多 个 软件 之 间 互 相 共享 信息 ,这 些 软件 既 可 以 在 同一 台 计 算 
机 上 运行 ,也 可 以 在 通过 网 络 连接 起 来 的 多 台 计 算 机 上 和 运行。 分 布 式 计 算 比 起 其 他 算法 具 
有 以 下 几 个 优点 : 

(1) 稀有 资源 可 以 共享 。 
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(2) 通过 分 布 式 计 算 可 以 在 多 台 计算 机 上 平衡 计算 负载 。 
(3) 可 以 把 程序 放 在 最 适合 运行 它 的 计算 机 上 。 
其 中 ,共享 稀有 资源 和 平衡 计算 负载 是 计算 机 分 布 式 计算 的 核心 思想 。 


1.5 网 格 计算 


网 格 计算 的 概念 最 初 由 AWAY 项 目 在 1995 年 提出 。 其 前 身 是 元 计算 ” 
(Metacomputing) 。 早 期 的 元 计算 被 定义 为 在 一 个 网 络 环境 下 使 用 户 透明 地 获得 强大 的 计 
算 资源 ,过 去 对 于 元 计算 的 研究 可 以 认为 是 网 格 计 算 的 初级 阶段 。 

关于 网 格 和 网 格 计算 本 身 还 没有 一 个 确切 的 定义 。 根 据 Tan Foster 博士 早期 的 定 
义 呈 ,网 格 是 一 个 集成 的 计算 与 资源 环境 ,或 者 说 是 一 个 计算 资源 池 , 网 格 能 够 充分 吸纳 各 
种 计算 资源 ,并 将 它们 转化 为 一 种 随处 可 得 的 可靠 的 .标准 的 、 经 济 的 计算 能 力 。 除 了 各 种 
类 型 的 计算 机 外 ,这 里 的 计算 资源 还 包括 网 络 通信 能力 、 数 据 资料 、 仪 器 设备 等 资源 。 但 随 
着 近 10 年 的 发 展 ,网 格 计算 的 研究 重点 发 生 了 转移 ,在 参考 文献 [4] 中 ,网 格 被 定义 为 : 基 
F Internet 技术 和 Web 技术 ,采用 开放 式 标准 ,为 动态 参与 的 多 个 机 构 组 成 的 虚拟 组 织 完 
成 某 类 科学 .工业 或 工程 上 的 应 用 提供 可 扩展 、 安 全、 高 效 . 灵 活 、, 协 调 的 共享 资源 。 网 格 计 
算 关 心 的 是 在 动态 的 、 多 机 构 的 虚拟 组 织 中 协调 资源 共享 和 协同 解决 问题 。 针 对 网 格 概 念 
模糊 现象 ,在 参考 文献 [5,6] 中 ,Ian Foster 阐述 了 网 格 与 目前 网 络 的 区 别 ,也 是 判断 一 个 系 
统 是 否 可 以 被 称 为 网 格 的 标准 。 

网 格 的 特点 如 下 : 

CD 建立 在 现 有 的 Internet 技术 和 分 布 计算 技术 之 上 。 

(2) 采用 标准 、 开 放 、 统 一 的 接口 和 协议 。 通 过 这 类 接口 和 协议 以 解决 广 域 范围 内 的 认 
证 ,授权 ,资源 查找 和 定位 、 资 源 访问 等 问题 。 

(3) 资源 共享 。 对 分 布 在 网 络 上 的 高 性 能 计算 机 、 软 件数 据 、 大 型 数据 库 、 可 视 化 设 
备 、 贵 重 仪器 (电子 显微镜 ,粒子 加 速 器 、 天 文 望远镜 等 ) 及 其 他 设备 均 可 共享 。 与 计算 机 网 
络 不 同 , 计 算 机 网 络 实现 的 是 硬件 的 连通 ,与 目前 的 网 络 服务 也 不 同 ,目前 的 网 络 服务 仅 实 
现 了 网 页 的 连通 ,而 网 格 能 实现 应 用 层面 全 方位 的 连通 。 

CD 非 集中 控制 。 网 格 中 的 资源 分 散在 多 个 控制 域内 ,归属 于 不 同 的 机 构 , 有 不 同 的 安 
全 机 制 、 计 费 方 式 和 管理 方法 ,网 格 中 的 资源 是 通过 协商 而 不 是 强占 进行 共享 。 

(5) 提供 有 保证 的 服务 质量 。 网 格 可 以 根据 用 户 的 权限 和 要 求 提供 不 同 质量 的 服务 ， 
服务 质量 可 以 用 响应 时 间 吞吐 率 、. 可 用 性 .安全 性 等 要 素来 衡量 。 

网 格 发 展 至 今 ,以 Globus Toolkits? 为 基础 的 计算 网 格 日 趋 成 熟 , 基 本 可 以 保证 一 定 
的 服务 质量 和 安全 性 ,通过 对 多 级 管理 域 下 集中 控制 的 超级 计算 资源 的 共享 ,可 以 在 计算 网 
格 上 实施 多 样 化 的 大 规模 并 行 计算 。 

网 格 还 具有 以 下 特点 : 

(1) 广 域 分 布 。 参 与 计算 的 资源 不 仅 存 在 于 局 域 网 内 ,它们 分 布 在 世界 的 各 个 区 域 。 
广 域 分 布 的 特点 使 得 应 用 程序 的 设计 要 考虑 容忍 相当 大 的 网 络 延 时 、 通 信和 链 路 的 竞争 、 路 
由 等 。 

(2) 异 构 性 。 参 与 计算 的 计算 机 在 软件 工具 硬件 设备 上 不 同 ,即使 软件 \ 硬 件 相 同 , 在 
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不 同时 间 段 表现 的 性 能 特性 也 不 同 ,而 且 这 些 计算 资源 存在 于 不 同 的 管理 域 中 。 

(3) 动态 性 。 由 于 多 用 户 特 别 是 资源 不 可 获取 等 情况 的 存在 ,资源 的 可 用 性 .用户 的 目 
标 和 优先 次 序 等 都 呈现 动态 变化 。 

网 格 的 这 些 独 有 特性 使 得 网 格 系统 比 以 往 的 分 布 式 系统 更 为 复杂 。 

最 新 的 网 格 研究 外 希望 通过 对 大 规模 分 散 资 源 的 共享 ,为 动态 组 建 的 虚拟 组 织 提供 有 
保证 的 服务 质量 。 因 此 ,网 格 未 来 的 发 展 趋势 将 具备 以 下 特点 : 

CD 与 对 等 计算 相 融 合 。P2P 计算 被 称 为 对 等 计算 。P2P 系统 中 的 各 个 结 点 不 依赖 于 
特定 的 集中 式 机 制 ,而 是 因为 互 为 服务 而 共存 ,各 结 点 可 以 直接 交互 并 可 能 随时 离开 P2P 
网 络 。 网 格 中 的 服务 提供 者 可 以 动态 加 入 或 者 退出 。 

(2) 协同 共享 大 规模 异 构 资源 。 异 构 性 可 以 体现 在 如 下 两 个 方面 : 

(D 多 种 资源 。 资 源 可 以 是 不 同类 型 的 ,每 种 资源 的 服务 能 力 是 不 同 的 ,如 计算 资源 \ 数 
据 资 源 、 服 务 、 存 储 空间 等 。 

© 多 种 特性 。 某 些 资源 提供 的 服务 是 稳定 的 ,如 “从 早上 6 点 到 下 午 6 点 为 所 有 用 户 
服务 ”; 而 有 些 资 源 提供 的 服务 是 不 稳定 的 ,如 “只 有 在 空闲 时 资源 可 被 共享 ”。 

(3) 多 种 应 用 模式 。 结 合 网 格 服务 技术 ,未 来 的 资源 共享 方式 是 标准 和 通用 的 。 

(4) 集中 管理 和 非 集中 管理 控制 并 存 。 从 对 外 服务 的 角度 看 ,网 格 是 集中 管理 的 ,从 虚 
拟 组 织 内 部 的 角度 看 ,资源 加 入 退出 的 模式 是 高 度 可 变 的 ,无 须 集 中 控制 和 集中 验证 。 


1.6 服务 计算 


服务 计算 是 跨越 计算 机 与 信息 技术 .商业 管理 .商业 质询 服务 等 领域 的 一 个 新 的 学 科 ， 
是 应 用 面向 服务 体系 架构 (Service Oriented Architecture,SOA) 技 术 在 消除 商业 服务 与 信 
息 支撑 技术 之 间 的 横 沟 方面 的 直接 产物 。 它 在 形成 自己 独特 的 科学 与 技术 体系 的 基础 上 有 
机 整合 了 一 系列 最 新 技术 成 果 : SOA, Web 服务 、 网 格 /效用 计算 (Grid. & Utility 
Computing) 以 及 业务 流程 整合 及 管理 (Business Process Integration & Management)。 第 
一 部 分 解决 的 是 技术 平台 和 架构 的 问题 ,第 二 部 分 解决 的 是 服务 交付 的 问题 ,第 三 部 分 则 是 
业务 本 身 的 整合 和 管理 。 


1.7 云 计 算 


随 着 多 核 处 理 器 、 虚 拟 化 ,分 布 式 存储 、 宽 带 互 联网 和 自动 化 管理 等 技术 的 发 展 ,产生 了 
一 种 新 型 的 计算 模式 一 一 云 计 算 , 即 用 户 终 端 可 以 通过 远程 网 络 连 接 , 获 取 存 储 、 计 算 、 数 据 
库 等 计算 资源 。 现 今 , 云 计算 是 一 个 很 热门 的 话题 ,可 以 说 我 们 即将 要 进入 了 云 计算 的 时 
代 。 人 们 重视 云 计 算 的 原因 ,一 个 是 因为 云 计算 这 种 商业 模式 孕育 着 巨大 的 商业 机 遇 , 另 一 
方面 , 云 计算 作为 互联 网 资源 的 新 的 配置 方式 , 它 将 改变 整个 互联 网 的 价值 链 。 

众所周知 , 云 计算 是 一 种 服务 ,其 提供 无 所 不 在 、 无 时 不 在 的 互联 网 信息 服务 。 它 彻底 
改变 了 人 们 使 用 信息 服务 的 方式 ,使 人 们 摆脱 了 为 了 使 用 信息 必须 学 会 使 用 复杂 的 信息 技 
术 和 设施 的 负担 ,使 人 们 更 加 关注 信息 和 内 容 的 本 身 , 而 不 是 其 他 。 

“ 云 ” 由 分 布 的 互联 网 基础 设施 (网 络 设备 、 服 务 器 、 存 储 设备 、 安 全 设备 等 ) 等 构成 ,几乎 
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所 有 的 数据 和 应 用 软件 ,都 可 存储 在 “ 云 " 里 。“ 云 终端 "如 PC、 手机、 车 载 电子 设 备 等 ,只 需 
要 拥有 一 个 功能 完备 的 浏览 器 ,并 安装 一 个 简单 的 操作 系统 ,通过 网 络 接 入 “ 云 ”, 就 可 以 轻 
松 地 使 用 云 中 的 计算 资源 。 

云 计算 的 核心 是 按 需 部 署 ,因而 需要 解决 资源 的 动态 可 重 构 、 监 控 和 自动 化 部 署 等 问 
题 , 而 解决 这 些 问 题 又 需要 以 虚拟 化 技术 、 高 性 能 存储 技术 、 处 理 器 技术 、 高 速 互联 网 技术 为 
基础 。 所 以 云 计 算 除 了 需要 仔细 研究 其 体系 结构 外 ,还 要 研究 资源 的 动态 可 重 构 、 自 动 化 部 
署 、 资 源 监 控 \ 虚 拟 化 技术 、 高 性 能 存储 技术 、 处 理 器 技术 等 。 

云 计 算 从 概念 上 分 为 狭义 云 计 算 和 广义 云 计算 。 狭 义 云 计算 是 指 IT 基础 设施 的 交付 
和 使 用 模式 , 指 通过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 的 资源 (硬件 .平台 、 软 件 )。 提 供 资 
源 的 网 络 被 称 为 “ 云 ?>。“ 云 ?中 的 资源 在 使 用 者 看 来 是 可 以 无 限 扩展 的 ,并 且 可 以 随时 获取 ， 
按 需 使 用 ,随时 扩展 , 按 使 用 情况 付费 。 就 像 使 用 水 电 一 样 使 用 IT 基础 设施 。 广 义 云 计算 
是 指 服务 的 交付 和 使 用 模式 , 指 通过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 的 服务 。 这 种 服务 
可 以 是 IT 和 软件 ,互联 网 相关 的 ,也 可 以 是 任意 其 他 的 服务 。 

云 计算 的 目标 是 : 用 户 可 以 使 用 连接 网 络 的 简单 终端 ,比如 笔记 本 式 计算 机 ,其 至 是 一 
部 手机 ,通过 Internet 得 到 所 需要 的 服务 ,其 至 包括 超级 计算 。 换 句 话 说 , 云 计 算是 一 种 利 
用 了 Internet 上 的 强大 的 数据 存储 和 处 理 能 力 , 将 复杂 的 运算 从 用 户 终端 迁移 到 云 中 进行 
的 计算 模式 。 

现 有 的 云 计算 主要 具有 以 下 特点 外: 

(1) 大 规模 基础 设施 。 云 计算 平台 的 底层 基础 硬件 拥有 相当 大 的 规模 ,Google 的 云 计算 
平台 拥有 超过 100 万 台 的 服务 器 ,Amazon、Microsoft、Yahoo 等 云 服务 平台 的 云 也 均 拥 有 几 十 
万 台 服 务 器 。 私 有 云 一 般 拥 有 成 百 上 千 台 服务 器 。“ 云 ”为 用 户 带 来 了 前 所 未 有 的 超 强 计算 
能 力 。 

(2) 基于 虚拟 化 技术 。 云 计算 为 用 户 提 供 的 资源 都 是 经 过 虚拟 化 的 资源 ,用 户 可 以 在 
任何 位 置 使 用 终端 获取 所 需 的 服务 。 用 户 获得 的 资源 来 源 于 “ 云 ”, 而 并 不 是 固定 的 有 形 的 
实体 ,用 户 的 应 用 运行 在 “ 云 ”" 中 ,用 户 不 需要 了 解 其 应 用 运行 的 具体 位 置 。 

(3) 高 可 靠 性 。 数 据 的 多 副本 容错 ,计算 结 点 同 构 互 换 等 策略 的 使 用 ,使 得 云 计算 比 本 
地 计算 具有 更 高 的 可 靠 性 。 

(4) 普 适 性 。 云 计算 所 提供 的 服务 并 不 针对 某 一 具体 的 应 用 ,在 云 计 算 的 平台 中 ,用 
户 可 以 根据 自己 的 需要 构造 出 不 同 的 应 用 ,同一 个 云 计算 平台 可 以 运行 不 同 用 户 的 不 同 
应 用 。 

(5) 易 扩 展 性 。“ 云 ”的 规模 可 以 根据 需要 进行 动态 扩展 ,以 满足 云 计算 应 用 和 用 户 数 
量 的 动态 变化 。 

(6) 按 需 索取 的 服务 形式 .“ 云 ”中 的 计算 资源 作为 一 种 商品 ,可 以 像 传统 的 水 电 煤 气 
那样 按 需要 购买 。 由 云 计 算 服 务 提供 商 根据 用 户 对 服务 的 使 用 量 进行 计 费 。 

CD 低 成 本 。 容 错 技术 的 使 用 使 得 云 计 算 的 硬件 基础 设施 可 以 建立 在 大 规模 廉价 的 服 
务 器 集群 上 上。 采用 价格 低廉 的 服务 器 构成 “ 云 ” 中 的 结 点 ,对 于 云 计算 服务 提供 商 而 言 , 大 大 
降低 了 底层 硬件 的 构架 成 本 ; 对 于 用 户 而 言 , 能 够 用 低廉 的 价格 完成 很 多 需要 性 能 强大 但 
价格 昂贵 的 应 用 服务 ,而 且 不 必 考 虑 软 硬 件 的 维护 。 
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1.8 网 格 计算 与 云 计算 的 区 别 


云 计算 与 网 格 计算 从 定义 上 来 看 ,二 者 都 试图 将 各 种 IT 资源 看 成 一 个 虚拟 的 资源 池 ， 
然后 向 外 提供 相应 的 服务 。 云 计算 试图 让 “用 户 透 明 地 使 用 资源 ”, 而 网 格 计算 当初 的 口号 
就 是 让 “使 用 IT 资源 像 使 用 水 电 一 样 简单 ”。 

根据 维基 百科 所 提供 的 定义 , 云 计 算是 一 种 宽泛 的 概念 , 它 允 许 用 户 通过 互联 网 访问 各 
种 基于 IT 资源 的 服务 ,这 种 服务 允许 用 户 无 须 了 解 底层 IT 基础 设施 架构 就 能 够 享受 到 作 
为 服务 的 “IT 相关 资源 ”。 

而 网 格 的 内 涵 包括 两 个 方面 : 一 方面 是 所 谓 的 效用 计算 或 随 需 计算 ,在 这 一 点 上 面 ,网 
格 计算 跟 云 计算 是 非常 相似 的 ,都 是 通过 一 个 资源 池 或 者 分 布 式 的 计算 资源 来 提供 在 线 的 
计算 或 存储 等 服务 ; 另 一 方面 就 是 所 谓 的 “虚拟 超级 计算 机 ,以 松 耦合 的 方式 将 大 量 的 计 
算 资 源 ,连接 在 一 起 提供 单个 计算 资源 所 无 法 完成 的 超级 计算 能 力 , 这 也 是 狭义 上 的 网 格 计 
算 跟 云 计 算 概念 上 最 大 的 差别 。 

网 格 计算 与 云 计算 的 区 分 如 下 : 

1. 目标 不 同 

一 般 来 说 , 谈 到 网 格 计算 大 家 都 会 想到 当年 风靡 一 时 的 搜寻 外 星人 项 目 , 也 就 是 说 通过 
在 本 机 安装 一 个 屏幕 保 护 软件 ,就 能 够 利用 每 个 人 的 PC 闲暇 时 的 计算 能 力 来 参与 搜寻 外 
星人 的 计算 。 这 也 说 明了 网 格 的 目标 ,就 是 要 尽 可 能 地 利用 各 种 资源 。 它 通过 特定 的 网 格 
软件 ,将 一 个 庞大 的 项 目 分 解 为 无 数 个 相互 独立 的 、 不 太 相 关 的 子 任务 ,然后 交 由 各 个 计算 
结 点 进行 计算 。 即 便 某 个 结 点 出 现 问题 ,没有 能 够 及 时 返回 结果 ,也 不 影响 整个 项 目的 进 
程 ,甚至 即便 某 一 个 计算 结 点 突然 崩溃 ,其 所 承担 的 计算 任务 也 能 够 被 任务 调度 系统 分 配给 
其 他 结 点 继续 完成 。 应 该 说 ,从 这 一 点 来 说 ,作业 调度 是 网 格 计算 的 核心 价值 。 

谈 到 云 计算 的 时 候 , 就 能 够 立刻 想到 通过 互联 网 将 数据 中 心 的 各 种 资源 打包 成 服务 向 
外 提供 。 一 般 来 说 ,尽管 云 计算 也 像 网 格 计算 一 样 将 所 有 的 资源 构筑 成 一 个 庞大 的 资源 池 ， 
但 是 云 计算 向 外 提供 的 某 个 资源 ,是 为 了 完成 某 个 特定 的 任务 。 比 如 说 某 个 用 户 需要 从 资 
源 池 中 申请 一 定量 的 资源 来 部 署 其 应 用 ,但 不 会 将 自己 的 任务 提交 给 整个 网 格 来 完成 。 从 
这 一 点 来 看 ,网 格 的 构建 大 多 为 完成 某 一 个 特定 的 任务 需要 ,这 也 是 会 有 生物 网 格 ` 地 理 网 
格 、 国 家 教育 网 格 等 各 种 不 同 的 网 格 项 目 出 现 的 原因 。 而 云 计 算 一 般 来 说 都 是 为 了 通用 应 
用 而 设计 的 ,没有 专门 的 以 某 种 应 用 命名 的 网 格 。 

2. 分 配 资源 方式 的 不 同 

对 于 网 格 计算 来 说 ,其 资源 已 经 被 池 化 ,在 外 界 看 来 就 是 一 个 巨大 的 资源 池 。 对 于 要 提 
交 特 定 任务 的 用 户 来 说 ,他 并 不 知道 自己 的 任务 将 会 在 哪些 网 格 的 物理 结 点 上 运行 。 他 只 
是 按照 特定 的 格式 ,将 作业 任务 提交 给 网 格 系统 ,然后 等 待 网 格 返回 结果 。 网 格 作业 调度 系 
统 自动 找寻 与 该 任务 相 匹 配 的 资源 ,然后 寻找 出 空闲 的 物理 结 点 ,将 任务 分 配 过 去 直至 完 
成 。 虽 然 网 格 能 够 实现 跨 物理 机 进行 并 行 作业 处 理 , 但 是 需要 用 户 先 将 并 行 算法 写 好 ,并 且 
通过 调度 系统 将 作业 分 解 到 各 个 不 同 的 物理 结 点 进行 ,这 个 过 程 相对 比较 复杂 ,这 也 是 很 多 
网 格 计算 被 建设 用 来 完成 特定 需求 的 原因 。 
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云 计 算是 通过 虚拟 化 将 物理 机 的 资源 进行 切割 的 ,从 这 个 角度 来 实现 资源 的 随 需 分 配 
和 自动 增长 ,并 且 其 资源 的 自动 分 配 和 增 减 不 能 超越 物理 结 点 本 身 的 物理 上 限 。 尽 管 从 控 
制 端 来 看 , 云 计算 也 将 所 有 的 IT 资源 看 成 是 一 个 资源 池 , 但 是 不 同 芯片 的 物理 机 会 被 归 类 
到 不 同 的 资源 池 中 。 比 如 说 为 呼应 某 一 个 应 用 的 请 求 , 而 给 其 分 配 一 颗 x86 CPU, Power 
CPU 或 者 Itanium CPU ,分 配 内 存 和 硬盘 空间 ,再 给 其 安装 Linux 系统 及 相关 的 应 用 ,但 是 
不 能 同时 分 配 一 颗 x86 CPU 和 一 颗 其 他 的 CPU 以 构成 一 个 异 构 的 环境 。 而且, 如 果 结 点 
中 的 物理 机 最 高 CPU 数量 是 4 颗 的 话 ,那么 即使 由 10 台 这 样 的 结 点 构成 一 个 40 颗 CPU 
的 资源 池 ,也 不 能 为 某 一 个 应 用 分 配 8 颗 CPU 的 虚拟 结 点 。 

从 这 种 角度 来 说 ,Amazon 在 2006 年 所 推出 的 EC2( Elastic Compute Cloud ,弹性 计算 
云 ) 项 目的 确 算得 上 是 云 计算 项 目 , 只 不 过 那个 时 候 云 计算 概念 未 兴起 ,而 网 格 计算 的 概念 
方兴未艾 ,Amazon 在 那个 时 候 依然 用 网 格 的 概念 向 外 推销 该 项 目 。 

网 格 计算 与 云 计 算 二 者 的 相同 点 在 于 ,无 论 是 用 户 还 是 企业 开发 者 ,都 能 够 通过 
Internet 来 获得 数据 或 者 进行 计算 。 尽 管 本 地 资源 有 限 ,但 是 能 够 通过 网 络 进行 复杂 的 运 
算 ,其 数据 的 计算 过 程 对 于 用 户 来 说 就 像 互联 网 网 络 对 于 本 地 网 络 用 户 一 样 , 正 如 大 家 所 了 
解 的 网 络 云 , 后 端的 实现 是 透明 的 。 它 们 是 殊途同归 的 ,都 能 够 被 看 成 是 分 布 式 计算 所 衍生 
出 来 的 概念 ,都 是 为 了 让 IT 资源 能 够 对 用 户 透明 ,为 了 让 IT 资源 能 够 达到 更 好 的 使 用 率 。 
从 提高 资源 利用 率 的 角度 出 发 ,逐渐 诞生 了 Web 服务 的 概念 ,然后 网 络 公司 通过 部 署 数 以 
万 计 的 服务 器 构成 庞大 的 计算 资源 ,进而 提供 此 前 无 法 完成 的 新 服务 。 企 业 或 者 个 人 能 够 
通过 Internet 利用 那些 大 公司 所 释放 出 来 的 计算 资源 ,进行 应 用 部 署 或 者 向 外 提供 服务 。 
这 就 是 从 网 格 计算 到 云 计算 演变 的 历史 过 程 。 


1.9 本 书 研究 的 主要 问题 


本 书 针对 目前 最 新 的 三 种 计算 模式 一 一 对 等 计算 模式 、 网 格 计算 模式 以 及 云 计算 模式 
的 关键 技术 展开 研究 ,下 面 将 对 主要 的 研究 重点 进行 详细 介绍 。 


1.9.1 对 等 计算 


过 去 10 年 见证 了 Internet 涌现 出 的 大 量 分 布 式 应 用 ,其 中 最 流行 的 应 用 之 一 是 使 用 
P2P 系统 实现 文件 共享 。1999 年 1 月 ,Shawn Fanning 离开 美国 的 西北 大 学 ,开发 了 软件 
Napster? , Napster 是 公共 可 用 的 第 一 个 用 于 音乐 共享 的 系统 ,并 且 取 得 了 极 大 的 成 功 。 
在 它 诞 生 后 不 久 ,世界 上 就 有 几 百 万 的 用 户 使 用 它 。 然 而 ,好 景 不 长 ,美国 唱片 工业 协会 
(RIAA) 发 起 了 对 Napster 的 起 诉 , 认 为 它 在 非法 共享 MP3 音乐 文件 方面 起 了 推波助澜 的 
作用 ,因此 违反 了 版 权 法 。Napster 因此 被 司法 局 在 2001 年 3 月 关闭 。 但 Napster 的 结束 
并 不 意味 着 P2P 文件 共享 的 结束 。 相 反 , 以 Gnutella 为 主力 的 分 布 式 P2P 系统 仍然 在 继续 
发 展 并 不 断 壮 大 。 新 系统 如 KaZaA") LimeWire!" Morpheus”! Rr IE, P2P 用 户 数量 
持续 快速 增长 2000 年 夏 ,KaZaA 软件 已 被 超过 1 亿 用 户 下 载 。 此 外 ,系统 不 再 局 限于 共 
享 音频 .视频 .软件 和 其 他 格式 文件 , 它 已 经 超越 了 文件 共享 的 界限 ,出 现 了 如 SETI@ 
Home53 等 利用 系统 参与 者 的 空闲 处 理 能 力 等 新 型 应 用 。 今 天 ,P2P 系统 已 经 在 数据 存 
PATI gg (507719 、 消 息 系统 09 等 多 方面 得 到 了 应 用 。 
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P2P 系统 开辟 了 Internet 应 用 的 一 个 新 时 代 «e RICH FH E B S 23 RR Js AI 
引 了 千 百 万 的 用 户 使 用 。 反 过 来 ,这 种 情况 也 促使 对 P2P 系统 的 性 能 有 了 更 高 的 要 求 。 研 
究 P2P 系统 的 关键 技术 ,改善 P2P 系统 的 性 能 ,成 为 一 个 重要 的 课题 。 

P2P 系统 是 一 个 迅速 发 展 的 研究 领域 。P2P 系统 的 应 用 已 从 传统 的 文件 共享 领域 逐步 
扩展 到 更 广泛 的 广 域 分 布 计算 领域 ,因而 需要 P2P 系统 提供 确定 性 定位 与 低 查 询 开 销 等 关 
键 特 性 。 基 于 分 布 式 哈 希 表 (Distributed Hash Table,DHT) 的 P2P 系统 在 广域网 支持 海 
量 的 数据 一 致 性 分 布 , 并 提供 低 跳 步 的 路 由 精确 定位 ,以 及 具有 低 查询 开销 和 高 容错 自 组 织 
等 优良 性 能 ,已 经 成 为 学 术 界 研究 的 热点 。 

分 布 式 哈 希 表 技 术 密 切 相关 于 PP 系统 的 设计 ,主要 是 拓扑 、 路 由 和 查询 这 三 个 紧密 
相关 的 关键 设计 技术 ,并 由 此 深刻 影响 着 P2P 系统 的 “资源 定位 和 查找 ”这 一 个 系统 应 用 的 
核心 问题 。 首 先 ,分 布 式 哈 希 表 技术 引入 是 对 传统 P2P 系统 的 拓扑 结构 的 一 种 根本 变革 ， 
将 拓扑 结构 由 一 种 随机 的 、 无 序 的 非 结 构 拓 扑 转变 为 确定 的 \ 有 序 的 结构 化 拓扑 ; 其 次 ,分 
布 式 哈 希 表 技术 引入 导致 了 路 由 技术 的 根本 不 同 , 由 传统 PP 系统 的 基于 无 向 性 的 泛 洪 路 
由 技术 而 转变 为 基于 精确 定位 导向 的 单 播 路 由 技术 ; 最 后 ,由 于 分 布 式 喻 希 表 技 术 对 于 拓 
扑 、 路 由 的 变革 影响 ,也 导致 了 查询 由 传统 P2P 系统 的 自由 式 的 随机 查询 且 查 询 结 果 具 不 
确定 性 转变 为 严格 控制 的 查询 且 查 询 结 果 具 确定 性 。 这 些 变 革 特性 ,使 得 P2P 系统 在 广 域 
网 对 诸如 网 络 存储 、 组 通信 、 名 字 服 务 、 信 息 搜 索 等 应 用 提供 了 极 具 竞争 力 的 优良 性 能 ,从 而 
大 大 超越 了 传统 的 文件 共享 的 应 用 界限 ,给 P2P 系统 带 来 新 的 发 展 和 机 遇 。 

然而 ,分 布 式 哈 希 表 技术 的 引入 在 带 来 其 先进 性 的 变革 影响 的 同时 ,也 带 来 了 新 的 挑战 
性 问题 。 第 一 ,由 于 拓扑 是 一 种 结构 化 的 拓扑 ,对 比 非 结构 化 的 拓扑 ,其 维护 开销 显著 加 大 。 
特别 是 在 大 规模 和 动荡 的 网 络 环境 下 ,维护 开销 相当 可 观 。 第 二 ,尽管 路 由 采用 了 精确 的 定 
向 单 播 技术 ,但 是 减少 其 路 由 跳 数 仍然 是 个 重要 的 问题 。 在 保证 高 度 的 分 散 性 前 提 下 ,如何 
尽 可 能 减少 其 路 由 跳 数 是 研究 人 员 特 别 关注 的 问题 ,这 个 问题 又 称 路 由 的 状态 与 效率 折 中 
问题 。 第 三 ,基于 分 布 式 哈 希 表 的 查询 是 一 种 单 关 键 字 的 精确 匹配 ,尽管 相对 于 非 结构 化 系 
统 , 它 可 使 得 系统 资源 能 被 确定 性 地 查询 到 ,但 它 也 极 大 地 限制 了 查询 的 应 用 范围 。 这 些 问 
题 对 于 P2P 系统 的 可 用 性 和 效率 是 重要 而 又 关键 的 。 本 书 研究 了 PP 系统 中 应 用 分 布 式 
哈 希 表 技 术 所 存在 的 极 富 挑战 性 的 问题 ,在 保障 分 布 式 哈 希 表 技 术 带 来 的 优良 性 能 的 前 提 
下 ,在 一 定 程度 上 突破 了 DHT 技术 应 用 的 局 限 性 ,初步 解决 了 上 述 的 挑战 性 问题 ,取得 了 
有 价值 的 进展 。 本 书 的 主要 的 研究 成 果 如 下 : 

CD 提出 了 在 动态 网 络 环境 下 自 适 应 的 拓扑 调整 模型 (Session Heterogeneity 
Topology, SHT) ,能 够 有 效 地 控制 DHT 拓扑 维护 开销 并 提高 了 系统 资源 的 可 用 性 , 较 好 解 
BT DHT 拓扑 维护 的 高 开销 问题 。 

SHT 利用 结 点 的 会 话 异 构 特性 将 DHT 重 构 ,将 DHT 的 拓扑 构造 变 成 仅 由 稳定 结 点 
组 成 ,从 而 大 大 降低 了 拓扑 适应 动态 环境 的 调整 开销 。 研 究 揭 示 ,会 话 时 间 短 的 结 点 是 拓扑 
调整 的 主要 扰动 因子 ,因此 建议 拓扑 设计 时 将 它们 聚 簇 于 稳定 结 点 ,并 由 稳定 结 点 代理 它们 
的 请 求 ,从 而 在 保证 它们 能 够 正常 使 用 系统 的 同时 又 将 它们 的 扰动 限制 于 稳定 结 点 的 动荡 。 
理论 分 析 和 实验 表明 一 个 合理 的 聚 簇 大 小 的 存在 ,使 得 拓扑 达到 近似 最 优化 ,此 时 减少 的 开 
销 达到 近似 最 小 。 

(2) 提出 了 基于 小 世界 理论 的 概率 缓存 链 技术 ,能够 在 高 度 分 散 的 低 状 态 路 由 表 下 达 
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到 较 高 的 路 由 效率 , 较 好 解决 了 DHT 路 由 的 低 效率 问题 。 

研究 利用 了 DHT 路 由 的 贪 禁 特性 及 查询 的 反馈 机 制 ,构造 了 概率 缓存 的 路 由 快捷 链 ， 
1 此 在 路 由 表 链 间 形 成 了 一 个 小 世界 ,使 得 系统 的 路 由 性 能 得 到 全 局 性 的 优化 。 设 计 充分 
考虑 了 静态 与 动态 下 的 收敛 问题 ,并 设计 主动 查询 机 制 以 适应 动态 环境 并 加 速 收敛 ,使 系统 
性 能 得 到 保障 。 由 于 设计 采用 的 是 查询 反馈 机 制 以 及 缓存 技术 ,具有 较 强 的 现实 意义 。 特 
别 是 对 于 当前 的 一 大 类 采用 低 状态 DHT 路 由 表 的 具有 高 度 松散 结构 的 P2P 系统 ,能 够 在 
轻微 的 修改 下 达到 路 由 效率 可 观 的 提高 。 

(3) 提出 了 基于 向 量 空间 模型 (VSM) 的 相似 文档 搜索 方法 和 技术 ,使 得 DHT 查询 能 
支持 多 关键 字 查询 和 相似 文档 搜索 ,从 而 突破 了 DHT 查询 的 单 关 键 字 的 精确 匹配 约束 ,使 
DHT 查询 的 应 用 范围 大 为 扩展 , 较 好 解决 了 DHT 查询 的 应 用 局 限 性 问题 。 

研究 在 两 方面 对 DHT 查询 进行 了 改进 。 一 方面 ,目前 基于 DHT 的 多 关键 字 查 询 技 
术 , 通 常 采 用 单 关键 字 的 组 合 查 询 的 模式 , 带 来 较 多 的 网 络 开销 。 通 过 VSM 技术 用 多 个 关 
键 字形 成 向 量 空 间 模型 VSM 中 的 向 量 , 并 使 得 查询 相关 于 此 向 量 , 从 而 能 够 支持 多 关键 字 
查询 并 去 除了 单 关 键 字 组 合 查询 所 需 的 大 量 网 络 开 销 。 另 一 方面 ,当前 DHT 查询 的 局 限 
性 本 质 是 由 于 哈 希 转换 使 得 查询 失去 了 语义 性 支持 , 仅 能 够 支持 精确 匹配 ,而 利用 VSM 技 
术 进 行文 档 标识 的 哈 希 空间 重 映射 ,使 得 DHT 文档 标识 具有 相似 性 的 语义 ,从 而 支持 相似 
性 文档 搜索 。 

随 着 P2P 信息 资源 继续 快速 的 增长 ,信息 无 序 和 信息 过 载 即 将 成 为 一 个 越 来 越 迫切 需 
要 解决 的 问题 。 于 是 人 们 提出 了 P2P 挖掘 技术 。 简 单 地 说 ,P2P 挖掘 类 似 于 Web 挖掘 ,就 
是 使 用 数据 挖掘 技术 自动 地 从 对 等 结 点 的 文件 和 服务 中 发 现 、 提 取信 息 和 知识 的 技术 ,但 
P2P 挖掘 特殊 性 在 于 它 是 一 个 分 布 式 的 挖掘 。 它 是 一 个 交叉 的 研究 领域 ,涉及 分 布 式 计 算 、 
传统 的 数据 挖掘 ,以 及 文本 、 图 像 , 声 音 、 视 频 等 方面 的 信息 检索 (Information Retrieval. 
IR) .信息 抽取 (Information Extraction,IE) 、 人 工 智 能 ,模式 识别 ,特别 是 机 器 学 习 和 自然 语 
言 处 理 (Nature Information Process, NLP) 等 领域 。 


1.9.2 网 格 计算 


随 着 计算 机 技术 和 网 络 技术 的 发 展 ,以 及 日 益 增 长 的 计算 力 的 需求 ,诞生 了 网 格 计算 。 
构建 一 个 网 格 系统 需要 研究 信息 服务 .数据 管理 .安全 机 制 等 技术 。 资 源 管理 对 高 效 合 理 利 
用 计算 资源 起 着 十 分 重要 的 作用 。 网 格 资源 具备 动态 性 、 异 构 性 和 自治 性 的 特征 ,需要 对 网 
格 资源 管理 和 调度 的 关键 技术 做 相关 研究 。 

网 格 资源 的 动态 性 、 异 构 性 和 自治 性 使 得 网 格 资源 提供 者 和 使 用 者 具有 对 等 网 络 的 特 
点 ,因此 有 必要 将 对 等 网 络 方法 引入 到 网 格 资源 管理 中 。 为 此 ,本 书 基于 对 等 网 络 技术 提出 
了 一 系列 网 格 资源 管理 和 调度 策略 。 

根据 网 格 的 发 展 历史 以 及 研究 工作 的 针对 性 ,网 格 可 以 划分 为 两 大 类 : 一 类 是 专用 网 
格 ,例如 计算 网 格 ; 另 一 类 是 通用 网 格 , 即 在 业界 参与 之 下 基于 Web 服务 和 OGSA 的 网 格 
系统 。 本 书 关于 网 格 计算 的 研究 工作 适用 于 这 两 类 网 格 的 资源 管理 和 调度 。 

本 书 的 网 格 计算 部 分 首先 介绍 了 网 格 资源 管理 和 调度 策略 的 一 些 基本 概念 和 主要 的 研 
究 内 容 , 然 后 结合 网 格 自身 特点 和 发 展 趋势 ,对 其 中 的 几 个 关键 问题 进行 了 深入 的 研究 , 包 
括 网 格 系统 的 体系 结构 ,网 格 资源 信息 的 表示 方法 、 资 源 管理 和 调度 算法 ,以 及 负载 均衡 。 
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为 了 验证 本 书 提出 的 模型 和 算法 的 有 效 性 ,进行 了 大 量 的 实验 ,实验 结果 证 明了 本 书 提出 的 
模型 和 算法 的 有 效 性 。 

本 书 关于 网 格 计算 的 研究 重点 如 下 : 

CD 在 分 析 了 网 格 自身 特点 和 发 展 趋势 的 基础 上 ,本 书 将 对 等 网 络 方法 引入 网 格 的 资 
源 管理 和 调度 中 ,结合 对 等 网 络 的 完全 分 布 式 的 资源 管理 方式 的 优点 ,设计 了 基于 超级 结 点 
对 等 网 络 的 网 格 资源 管理 体系 结构 。 这 种 集中 式 和 分 布 式 的 混合 设计 结构 能 够 解决 现 有 网 
格 系统 采用 的 集中 式 管理 的 容易 引起 的 单 点 失效 、 性 能 瓶颈 等 问题 ,从 而 可 以 更 好 地 描述 网 
格 资源 的 动态 性 .自治 性 等 特点 ,使 网 格 系统 具有 更 强 的 鲁 棒 性 ( 即 稳健 性 ) 和 自 适 应 性 ,并 
且 有 利于 制定 优化 网 格 资源 管理 和 调度 的 策略 、 算 法。 进一步 根据 网 格 资源 提供 者 的 IP 层 
信息 生成 含有 路 由 信息 的 释 加 网 络 (Overlay Network) 拓 扑 , 并 且 使 用 有 向 图 表示 该 拓扑 结 
构 。 这 种 使 用 有 向 图 进行 网 格 拓扑 结构 表示 的 方式 在 能 够 准确 描述 网 格 资源 提供 者 的 计算 
能 力 的 同时 ,还 能 够 弥补 其 他 现 有 的 资源 信息 表示 模型 的 Overlay 层 路 由 信息 不 能 精确 反 
We IP 层 路 由 情况 的 不 足 , 同 时 这 种 简单 的 描述 方式 有 利于 网 格 资源 调度 器 发 掘 网 格 资源 提 
供 者 和 网 格 任务 之 间 的 对 应 关系 。 

(2) 提出 了 基于 树 匹 配 的 nTreeMatch 算法 。 该 算法 结合 DAG 图 (Directed Acyclic 
Graph, 有 向 无 环 图 ) 的 任务 表示 形式 ,通过 树 形 数据 结构 匹配 的 方法 解决 了 网 格 资源 和 网 
格 任务 间 的 映射 问题 。 同 时 ,该 算法 充分 利用 Overlay 拓扑 中 结 点 的 路 由 信息 ,以 轻 量 附加 
开销 来 有 效 减少 Overlay 层 上 的 路 由 跳 数 ,使 得 Overlay 层 上 的 路 由 跳 数 尽量 接近 IP 层 上 
的 路 由 跳 数 ,降低 RDPCRelative Delay Penalty, 相 对 平均 延迟 开销 )。 理 论 和 模拟 实验 表明 
在 大 规模 的 网 格 系统 中 ,算法 在 进行 资源 调度 时 可 以 获得 较 高 的 路 由 效率 ,为 路 由 的 状态 与 
效率 折 中 问题 提供 了 一 个 可 行 的 解决 方案 。 该 算法 尤其 适用 于 为 特定 的 科学 应 用 而 设计 的 
专用 计算 网 格 的 资源 调度 。 

(3) 针对 基于 Web Service 的 通用 网 格 系统 的 资源 调度 ,本 书 提出 了 基于 资源 发 现 的 
GChord 算法 。 考 虑 到 网 格 的 动态 性 特征 ,GChord 算法 采用 服务 发 现 的 方式 解决 资源 调度 
问题 ,将 资源 需求 按照 Chord 路 由 协议 在 网 格 中 转发 ,改变 了 传统 的 集中 式 调 度 方法 采取 
的 信息 收集 方式 ,能够 实时 反映 网 格 结 点 的 工作 负载 状态 .有 效 解决 由 于 信息 过 时 、 数 据 不 
一 致 而 引起 的 任务 再 调度 问题 。 实 验证 明 ,GChord 算法 可 以 实现 网 格 系统 的 实时 资源 调 
度 ,并 且 使 得 网 格 系统 保持 良好 的 负载 均衡 状态 。 

(4) 为 解决 网 格 资源 调度 中 动态 负载 均衡 的 挑战 ,在 研究 了 多 代理 技术 和 网 格 计算 相 
互 融合 的 发 展 趋势 的 基础 上 ,本 书 提出 了 基于 多 代理 协同 计算 的 rwAgent 算法 。 该 算法 利 
用 多 代理 技术 ,通过 代理 的 自治 性 和 智能 学 习 , 实 现 网 格 资源 的 分 散 调度 ,同时 可 以 获得 很 
好 的 负载 均衡 效果 。 严 格 的 数学 建 模 和 理论 分 析 证 明 ,rwAgent 算法 可 以 实现 资源 调度 过 
程 中 网 格 系统 的 全 局 负载 均衡 ,实验 结果 证 明了 算法 的 有 效 性 和 优越 性 。 


1.9.3 云 计算 

1. 云 计算 技术 的 特征 和 优势 

云 计算 通过 虚拟 化 方式 提供 动态 资源 池 , 使 得 资源 的 可 用 性 更 加 高 效 。 与 传统 的 计算 
模式 相 比 , 现 阶段 的 云 计算 技术 具有 以 下 特征 co , 

CD 云 计算 的 底层 硬件 基础 架构 是 由 大 量 的 廉价 服务 器 集群 (甚至 是 x86) 构 成 的 。 在 
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传统 的 计算 模式 中 ,要 想 获得 性 能 强大 的 计算 能 力 , 那 就 意味 着 昂贵 的 价格 。 而 云 计 算 使 用 
虚拟 化 技术 手段 ,利用 廉价 的 服务 器 ,将 其 资源 整合 ,从 而 达到 既 性 能 强大 ,又 价格 低廉 的 
目的 。 

(2) 云 计算 的 底层 结构 与 应 用 程序 协作 开发 ,使 得 资源 利用 最 大 化 。 传 统计 算 模式 中 
的 应 用 程序 必须 在 完整 的 软件 (操作 系统 ) 和 硬件 基础 上 运行 ,也 就 是 说 应 用 要 建立 在 完整 
的 底层 硬件 之 上 。 而 云 计算 采用 了 底层 硬件 架构 与 上 层 应 用 程序 协同 设计 的 方法 ,更 好 地 
利用 了 资源 。 

(3) 云 计算 通过 软件 的 方法 利用 服务 器 集群 中 失效 结 点 产生 的 元 余 , 获 得 资源 优化 利 
用 。 廉价 服 务 器 之 间 的 结 点 失效 问题 不 可 避免 , 它 不 仅 会 影响 系统 性 能 ,还 会 造成 资源 的 利 
用 效率 低下 。 在 设计 软件 时 考虑 到 结 点 之 间 的 容错 问题 ,有 效 利用 元 余 结 点 ,不仅 可 以 提高 
资源 的 利用 率 , 还 可 以 提高 整个 系统 的 性 能 。 

从 以 上 云 计 算 具 有 的 特征 来 看 , 云 计算 具有 很 多 传统 计算 模式 所 不 具备 的 优点 。 从 用 
户 角度 看 , 云 计算 的 特点 如 下 : 

(1) 云 计算 平台 通过 专业 人 员 的 管理 ,具有 可 靠 性 高 的 存储 技术 以 及 权限 策略 ,以 此 为 
用 户 提供 了 安全 可 靠 的 数据 存储 中 心 。“ 云 ?用 户 不 用 再 考虑 数据 丢失 和 病毒 人 侵 等 问题 ， 
可 以 放心 地 使 用 云 计算 的 服务 。 

(2) 要 求 低 ,使 用 方便 。 云 计算 对 用 户 端的 设备 要 求 低 ,简单 的 终端 设备 如 PC PL. Bid 
本 式 计 算 机 ,甚至 是 手机 等 无 线 通信 设备 ,都 可 以 随时 随地 地 通过 Internet HEA BI“ zi" rp. 
在 浏览 器 中 直接 编辑 存储 在 “ 云 " 中 的 文档 。 

G) 云 计算 可 以 轻松 实现 不 同 设备 间 的 数据 与 应 用 共享 。 所 有 电子 设备 只 需要 连接 到 
Internet, 就 可 以 对 数据 与 应 用 进行 操作 。 

(4) 云 计算 使 得 网 络 可 以 为 用 户 提供 更 多 服务 。 它 为 数据 的 存储 以 及 管理 提供 了 更 多 
的 空间 ,也 为 完成 各 类 应 用 提供 了 强大 的 计算 能 力 。 云 计算 可 以 轻而易举 地 做 到 PC 机 或 
其 他 电子 设备 不 可 能 做 到 的 事情 ,比如 云 计算 可 以 为 用 户 提供 几乎 无 限 的 存储 空间 和 超级 
的 计算 能 力 , 这 是 因为 云 计算 的 底层 架构 是 由 成 千 数 万 甚至 更 多 的 服务 器 组 成 的 超大 规模 
的 集群 。 所 以 说 云 计算 的 潜力 是 无 穷 的 。 随 着 云 计 算 的 进一步 发 展 与 完善 ,用 户 充分 相信 
“ 云 ? 的 时 候 , 整 个 IT 行业 会 发 生 翻天 覆 地 的 变化 。 

云 计 算 还 具有 分 布 式 计算 特有 的 优势 : 与 集中 式 系统 相 比 , 具 有 更 高 的 性 价 比 ,也 就 是 
花 更 少 的 钱 得 到 更 高 效 的 计算 。 在 现实 生活 中 ,大 多 数 应 用 本 身 就 是 呈 分 布 式 的 ,比如 在 工 
业 或 企业 中 ,管理 部 门 和 应 用 现场 基本 上 都 不 在 同一 个 地 方 ; 分 布 式 的 高 可 靠 性 .可 扩展 
性 、 宛 余 技术 使 得 现代 分 布 式 系统 具有 高 度 容错 机 制 ,购买 一 台 性 能 高 的 大 型 机 的 费用 远 远 
高 于 增加 几 台 PC 机 的 费用 ; 分 布 式 计算 具有 灵活 性 ,可 以 兼容 不 同 硬件 厂商 的 产品 ,甚至 
兼容 低 配 置 设备 而 获得 高 性 能 的 计算 。 

云 计算 在 存储 方面 的 优势 是 : 用 户 不 必 为 文件 存储 投入 任何 前 期 的 费用 ,基础 设施 服 
务 提供 商会 维护 用 户 文件 服务 器 的 安全 和 更 新 问题 。 

2. 云 计 算 的 关键 技术 

1) 编程 模式 

前 面 提 到 云 计 算 可 以 使 得 用 户 或 使 用 云 计 算 服 务 进 行 开发 的 程序 人 员 , 从 复杂 而 烦琐 
的 软 硬 件 的 维护 与 升级 中 解放 出 来 ,使 他 们 可 以 将 精力 放 在 只 与 其 业务 有 关 的 工作 中 ,所 以 云 
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计算 所 采用 的 编程 模式 应 该 尽量 使 后 台 复 杂 的 并 行 执行 和 任务 调度 等 对 用 户 和 编程 人 员 透 
明 。 为 了 方便 用 户 利 用 云 中 的 资源 , 云 计 算 的 编程 模式 应 该 尽量 简单 易学 。MapReduce[2 是 
Google 提出 的 适用 于 云 计 算 的 一 种 新 兴 的 编程 模式 。 目 前 ,几乎 各 个 云 计 算 服 务 提供 商 所 
使 用 的 编程 模式 都 是 以 MapReduce 为 基础 的 。MapReduce 虽然 是 针对 云 计 算 提 出 的 ,但 
是 在 并 行 处 理 以 及 多 核 计算 上 也 都 具有 很 好 的 表现 。 但 是 目前 的 MapReduce 仅 用 于 编写 
处 理 数据 为 主 的 、 并 行 化 程度 高 的 程序 。 这 是 因为 MapReduce 还 不 能 够 对 有 相互 联系 的 计 
算数 据 进 行 处 理 , 这 也 是 MapReduce 接 下 来 要 改进 的 地 方 。 

2) 数据 存储 管理 

云 计算 的 数据 存储 和 管理 采用 的 是 分 布 式 方式 ,这 样 做 有 利于 保证 位 于 云 中 的 数据 具 
有 更 高 的 可 用 性 及 可 靠 性 。 宛 余 存 储 是 云 计算 中 采用 的 一 种 安全 存储 数据 的 技术 , 它 可 以 
通过 存储 系统 的 高 容错 性 进而 提高 数据 存储 的 可 靠 性 。 云 计算 采用 分 布 式 的 方式 对 数据 进 
行 存储 ,这 是 因为 云 计 算 平 台 需 要 同时 并 行 地 为 多 个 用 户 提供 服务 ,而 分 布 式 的 存储 方式 可 
以 满足 云 计算 的 多 用 户 的 特点 ,保证 云 计 算 存 储 的 高 吞吐 率 。 

目前 ,成 熟 的 云 计 算数 据 存 储 技术 主要 如 下 : 

(1) Google 的 GFS” (Google File System, 一 种 非 开 源 的 存储 体系 ): 是 Google 提出 
的 一 种 可 扩展 的 分 布 式 文件 系统 。 为 了 减少 复杂 性 ,GFS 并 未 遵守 POSIXU? (Portable 
Operating System Interface of UNIX) 标 准 。GFS 虽然 是 分 布 式 文件 系统 ,但 并 未 采用 纯 分 
布 式 的 架构 ,而 是 采用 了 中 央 控制 管理 服务 器 。 一 个 GFS 系统 是 由 一 个 Master 和 一 个 大 
规模 的 Chunk server 组 成 ,其 中 Master 负责 维护 和 控制 文件 系统 中 所 有 的 元 数据 、 名 字 空 
间 ,文件 访问 控制 信息 文件 映射 信息 及 数据 块 位 置信 息 等 ; Chunk Server 负责 数据 块 的 存 
储 ,在 云 计 算 中 ,出 于 数据 的 安全 可 靠 性 考虑 ,每 一 个 数据 块 都 会 被 复制 到 多 个 Chunk 
Server 中 。 

(2) Hadoop 团队 开发 的 HDFSB9 (Hadoop Distributed File System, Hadoop 分 布 式 文 
件 系 统 ): 是 基于 分 布 式 的 一 种 文件 系统 。 因 为 它 的 高 容错 性 ,所 以 一 般 用 来 部 署 在 廉价 的 
计算 机 硬件 设备 上 。 它 的 高 传输 率 使 得 拥有 大 规模 数据 集 的 应 用 程序 能 够 高 效 快速 地 
访问 到 其 需要 的 数据 。HDFS 被 众多 IT 企业 如 Yahoo, Intel, Alibaba 等 作为 数据 存储 的 
BOR. 

云 计算 系统 需要 在 处 理 来 自 于 大 量 用 户 的 数据 的 同时 ,保证 服务 的 高 效 性 。 所 以 云 计 
算 的 数据 管理 技术 必须 能 够 高 效 可 靠 地 对 海量 的 用 户 信息 进行 处 理 。 云 计算 的 数据 管理 模 
式 采用 的 是 读 操作 优先 的 模式 。 这 是 因为 对 存储 在 “ 云 " 中 的 数据 进行 读 操作 的 频率 远 远 超 
出 了 其 他 操作 的 频率 。 读 操作 优先 模式 等 同 于 数据 库 中 的 列 存储 数据 管理 模式 , 它 首 先 将 
表 按 列 进行 划分 ,然后 再 进行 存储 。Google 的 BigTablet”3 是 一 种 典型 的 数据 管理 技术 。 

3) 虚拟 化 技术 

云 计 算 中 的 核心 技术 就 是 虚拟 化 ,可 以 说 是 虚拟 化 为 我 们 带 来 了 “ 云 ”, 同 时 也 是 云 计 算 
区 别 于 传统 计算 模式 的 重要 特点 Ce 。 虚 拟 机 是 一 种 可 以 完全 模拟 硬件 执行 的 特殊 软件 , 它 
运行 在 完全 隔离 的 环境 中 ,所 以 可 以 将 操作 系统 运行 其 中 ,这 样 做 可 以 对 运行 环境 进行 
有 效 的 保存 。 采 用 虚拟 化 可 以 将 应 用 程序 的 整个 执行 环境 以 打包 的 形式 转 到 云 计算 平 
台中 的 其 他 结 点 处 ,实现 程序 的 执行 环境 与 物理 环境 的 隔离 ,使 得 应 用 程序 的 环境 变 得 
易于 实现 。 
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使 用 虚拟 化 技术 可 以 将 计算 机 硬件 设备 进行 逻辑 上 的 扩大 ,大 大 简化 了 软件 的 多 次 配 
置 过 程 。 例 如 ,可 以 通过 虚拟 化 技术 将 一 个 CPU 模拟 成 多 个 并 行 的 CPU, 通过 虚拟 化 可 以 
将 多 个 操作 系统 同时 运行 在 一 个 计算 机 平台 上 ,而 且 在 整个 系统 中 ,应 用 程序 的 运行 是 相互 
独立 的 ,不 会 互相 影响 。 这 样 使 得 计算 机 的 效率 得 到 了 很 大 的 提高 。 

虚拟 化 技术 不 同 于 传统 的 多 任务 或 超 线程 技术 ,后 两 者 指 的 是 多 个 任务 或 程序 运行 在 
单个 操作 系统 上 ,而 虚拟 化 指 的 是 多 个 操作 系统 同时 运行 ,而 每 一 个 操作 系统 在 同一 时 间 都 
运行 多 个 应 用 程序 ,每 个 操作 系统 又 都 运行 在 一 个 虚拟 的 主机 之 上 。 传 统 的 超 线程 技术 只 
是 实现 了 通过 单 CPU 对 双 CPU 的 模拟 ,来 进行 程序 的 运行 性 能 的 平衡 ,而 且 模 拟 的 双 
CPU 只 能 相互 协同 工作 。 云 计算 使 用 虚拟 化 技术 可 以 得 到 以 下 好 处 : 

(1) 虚拟 化 技术 使 得 云 计 算 动 态 找到 计算 所 需要 的 资源 ,然后 将 其 定位 到 合适 的 物理 
平台 之 上 ,在 整个 过 程 中 ,运行 在 虚拟 机 中 的 程序 不 需要 退出 。 

(2) 虚拟 化 技术 使 得 位 于 云 中 的 物理 主机 的 资源 利用 率 大 大 提高 ,虚拟 化 将 所 有 闲置 
计算 资源 的 计算 结 点 整合 到 同一 个 物理 结 点 之 上 ,这 样 能 够 节约 维持 多 个 物理 结 点 所 需要 
的 成 本 。 

(3) 虚拟 机 的 动态 迁移 有 利于 系统 的 性 能 做 到 负载 平衡 ,而 且 迁 移 的 虚拟 机 中 拥有 整 
个 应 用 程序 的 运行 环境 。 

(4) 虚拟 化 技术 让 云 计 算 平 台 的 部 署 变 得 灵活 , 云 计算 服务 提供 商 可 以 将 一 个 虚拟 机 
作为 资源 提供 给 用 户 , 也 可 以 根据 用 户 的 需要 提供 相应 的 资源 。Amazon 的 EC2 就 类 似 于 
提供 给 用 户 的 一 个 完整 的 虚拟 机 。Xen、VMware 以 及 开放 源 代码 的 Linux KVM 是 几 种 比 
较 成 熟 的 虚拟 化 技术 。 


1.10 本 书 的 层次 结构 


本 书 共 分 为 10 章 , 层 次 结构 如 图 1-1 所 示 。 
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对 等 网 络 研究 进展 第 2 章 


随 着 计算 机 技术 、 网 络 技术 .通信 技术 的 发 展 , 计 算 模 式 也 正面 临 着 一 场 
革命 。 这 场 革命 正在 改变 Internet 的 一 个 基本 特性 ,这 就 是 网 络 的 终端 (或 
称 客户 端 ) ,如 桌面 电脑 、 移 动 电话.PDA 等 正 要 求 一 个 更 优越 的 网 络 地 位 ， 
以 结束 服务 器 为 主导 的 Internet。 这 就 需要 P2P 计算 。 

P2P 计算 技术 出 现 的 目的 就 是 希望 充分 利用 Internet 中 所 蕴含 的 潜在 
计算 资源 。P2P 即 对 等 网 络 , 指 分 布 式 系统 中 的 各 个 结 点 是 逻辑 对 等 的 ,与 
目前 Internet 上 比较 流行 的 C/S 计算 模型 不 同 的 是 : P2P 计算 模型 中 不 再 区 
别 服务 器 以 及 客户 端 ,系统 中 的 各 个 结 点 之 间 可 以 直接 进行 数据 通信 而 不 需 
要 通过 中 间 的 服务 器 。 和 传统 的 C/S 网 络 相 比 , 对 等 网 络 具 有 扩展 性 好 、 容 
错 性 好 、 负 载 均 衡 和 整体 性 能 高 等 优点 。 

对 等 网 络 的 以 下 特征 使 之 与 传统 的 计算 机 系统 相 区 别 ， 

(1) 结 点 之 间 通 过 直接 交互 共享 资源 。 

(2) 资源 分 布 在 各 个 结 点 中 ,而 不 是 集中 在 一 个 服务 器 中 进行 管理 。 

(3) 结 点 具有 动态 性 和 自治 性 。 

(4) 纯粹 的 P2P 系统 没有 集中 控制 机 制 。 系 统 的 各 结 点 运行 的 P2P 系 
统 软件 功能 相同 ,各 结 点 之 间 交 互 对 称 。 


2.1 对 等 网 络 概述 


2.1.1 对 等 网 络 的 定义 

对 等 网 络 正 处 于 不 断 发 展 的 阶段 ,因而 并 不 存在 一 个 精确 的 定义 。 当 前 
给 出 的 许多 定义 都 是 试图 反映 P2P 系统 发 展 过 程 中 的 某 阶段 的 新 特征 。 下 
面 是 文献 针对 P2P 系统 给 出 的 一 些 定义 。 

1. Clay Shirkey 

P2P 是 一 种 利用 位 于 Internet 边缘 的 各 种 可 用 资源 (如 存储 空间 、 计 算 
能 力 、 媒 体内 容 ) 的 应 用 。 访 问 这 些 分 散 的 资源 ,就 意味 着 要 在 连接 不 稳定 和 
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IP 地 址 不 可 预见 的 环境 里 工作 。 由 于 网 络 上 大 量 的 结 点 工作 在 DNS 系统 之 外 ,这 些 分 散 
的 资源 具有 不 稳定 的 连通 性 和 未 知 的 IP 地 址 。 因 此 ,P2P 结 点 必须 能 够 独立 于 DNS 系统 
HAEA., 

2. Mike Miler 

P2P 是 一 个 网 络 体系 ,其 中 每 台 计 算 机 有 同等 能 力 和 责任 ,有 如 下 5 个 关键 特性 四 。 

(1) 网 络 提供 结 点 间 实 时 的 数据 传输 或 者 消息 传递 。 

(2) 结 点 既是 客户 端 又 是 服务 器 。 

(3) 网 络 的 内 容 是 由 分 布 的 结 点 提供 。 

(4) 结 点 具有 网 络 控制 权 和 自治 权 。 

(5) 网 络 允许 不 总 是 连接 的 结 点 和 可 能 没有 永久 IP 地 址 的 结 点 参与 。 

3. P2P 工作 组 

P2P 是 通过 在 系统 之 间 直 接 交 换 来 共享 计算 机 资源 和 服务 的 。 这 些 资 源 和 服务 包括 信 
息 交 换 、 高 速 缓存 、 处 理 能 力 ,存储 空间 。P2P 可 以 整合 这 些 PC 机 上 的 计算 力 和 网 络 连 接 ， 
从 而 提供 企业 级 的 计算 平台 外。 

一 般 地 说 ,P2P 是 一 个 用 于 资源 共享 的 对 等 结 点 群体 ,其 中 每 个 对 等 结 点 向 群体 提供 资 
源 的 同时 ,作为 回报 从 中 获取 所 需 资源 。 它 的 思想 是 基于 世界 上 的 事物 是 广泛 分 布 且 相 互 
联系 的 ,不 可 能 通过 一 种 集中 化 的 方式 管理 如 此 庞大 的 结构 。P2P 通过 分 布 于 世界 各 地 的 
PC 机 管理 大 量 的 计算 能 力 、 存 储 空间 和 连接 。P2P 中 的 每 个 对 等 结 点 自治 又 彼此 依赖 ,所 
谓 自治 是 指 每 个 对 等 结 点 独立 决定 自己 的 行为 而 不 受 其 他 机 构 ( 如 集中 式 授 权 机 构 ) 的 控 
制 ,同时 每 个 对 等 结 点 又 需要 相互 协作 获得 信息 资源 .计算 资源 。 在 本 书 中 把 每 个 peer 称 
为 对 等 结 点 ,并 把 peer 所 组 成 的 网 络 称 为 到 加 网 络 。 

Intel? ffjgg $t; P2P 是 通过 系统 间 的 直接 交换 所 达成 的 计算 机 资源 与 信息 的 共享 。 这 
些 资 源 包括 信息 交换 、 处 理 器 时 钟 , 缓 存 和 磁盘 空间 等 。P2P 利用 了 已 有 的 桌面 计算 能 力 和 
网 络 连 接 , 将 这 些 资 源 和 服务 有 效 组 织 , 通 过 更 强大 的 集合 能 力 来 完成 任务 。 

IBM fj gg x. P2P 系统 由 若干 互联 协作 的 计算 器 构成 , 且 至 少 具有 如 下 特征 之 一 。 
系统 依存 于 边缘 化 ( 非 中 央 式 服务 器 ) 设 备 的 主动 协作 ,每 个 成 员 直 接 从 其 他 成 员 而 不 是 从 
服务 器 的 参与 中 受益 ; 系统 中 成 员 同 时 扮演 服务 器 与 客户 机 的 角色 ; 系统 应 用 的 用 户 能 够 
意识 到 彼此 的 存在 ,构成 一 个 虚拟 或 实际 的 群体 。P2P 将 网 络 抽象 成 由 主机 和 主机 间 的 应 
用 层 链 路 组 成 ,把 网 络 计算 模式 从 集中 式 引 向 分 布 式 , 网 络 应 用 的 核心 从 中 央 服 务 器 向 网 络 
边缘 的 终端 设备 扩散 。 


2.1.2 对 等 网 络 的 发 展 历史 


文件 共享 是 P2P 最 成 功 的 一 种 应 用 ,这 里 以 文件 共享 为 例 来 说 明 P2P 的 发 展 。 在 文件 
共享 领域 为 什么 会 引入 P2P 呢 ? 最 开始 的 文件 共享 采用 的 是 FTP 协议 ,但 FTP 协议 存在 
发 现 资源 困难 的 缺点 ,尤其 是 当 提 供 资源 共享 的 FTP 站 点 规模 很 大 时 。 其 主要 原因 是 网 络 
中 的 结 点 标识 (IP 地 址 ) 和 结 点 拥有 的 文件 两 者 间 不 存在 必然 的 对 应 关系 , 即 结 点 所 拥有 的 
文件 和 其 TP 地 址 之 间 相 互 独立 (独立 事件 )。 这 就 造成 了 不 可 能 知道 某 个 IP 地 址 的 结 点 上 
是 否 有 某 个 文件 ,也 不 可 能 知道 某 个 想 要 的 文件 会 在 哪个 IP 的 结 点 上 。 这 使 得 FTP 搜索 
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引擎 的 出 现成 为 必然 。FTP 搜索 引擎 负责 将 FTP 站 点 中 的 共享 资源 搜索 出 来 , 放 到 本 地 
数据 库 中 ,以便 用 户 查 找 。 但 这 是 一 种 由 FTP 搜索 引擎 主动 进行 内 容 收 集 ,存在 搜索 信息 
滞后 .内 容 不 全 面 和 单 点 故障 等 问题 。P2P 中 的 第 一 代 应 用 一 一 Napster 采用 的 是 由 结 点 
主动 注册 的 机 制 ,其 仍然 存在 单 点 故障 、 负 载 不 均衡 等 缺陷 ; Gnutella 系统 采用 泛 洪 方式 来 
传递 查询 消息 ,这 样 会 产生 大 量 的 查询 负载 。 第 一 代 的 P2P 应 用 系统 尽管 实现 简单 ,但 缺 
点 也 是 比较 明显 的 。 为 了 解决 P2P 系统 Napster 中 目录 服务 器 的 单 点 故障 的 问题 ,一 般 的 
思路 是 采用 多 个 服务 器 共同 存储 共享 文件 的 索引 ,P2P 将 这 个 思想 进一步 推广 ,将 整个 共享 
文件 的 索引 放 到 整个 网 络 结 点 上 去 索引 , 随 之 而 来 的 问题 就 是 如 何 确定 资源 拥有 结 点 和 发 
布 结 点 之 间 的 对 应 关系 ,因此 第 二 代 P2P 系统 引入 了 Overlay 层 , 建立 了 物理 网 络 和 
Overlay 层 之 间 的 映射 关系 (由 哈 希 函数 确定 ) ,这 使 得 资源 查找 突破 了 单 点 故障 、 负 载 不 均 
衡 等 缺点 。 第 二 代 P2P 系统 以 Chord[ , Tapestry? , Pastry. 和 CANU EHRE. 


2.1.3 对 等 网 络 的 分 类 


P2P 具有 多 种 分 类 标准 。 这 里 仅 选取 分 散 度 和 网 络 结构 中 为 分 类 标准 ,因为 这 种 分 类 
方法 是 恰当 地 反映 了 P2P 系统 的 本 质 特征 。 

分 散 度 表示 P2P 系统 中 结 点 在 进行 相关 信息 搜索 时 依赖 目录 服务 器 的 程度 。 它 有 三 
种 情况 : 完全 分 散 、 部 分 分 散 混合 分 散 。 在 完全 分 散 的 情况 下 ,所 有 结 点 都 是 平等 的 ,没有 
任何 一 个 会 比 其 他 一 个 更 重要 ,不 存在 目录 服务 器 ; 在 部 分 分 散 的 情况 下 ,一 些 所 谓 的 超级 
结 点 充当 了 部 分 目录 服务 的 功能 以 改善 系统 性 能 ; 在 混合 分 散 的 情况 下 ,整个 系统 依赖 于 
一 个 或 者 非常 少 的 不 可 蔡 代 的 结 点 提供 集中 式 的 目录 服务 ,而 系统 内 其 余 的 结 点 ,具有 彼此 
等 同 的 功能 。 

网 络 结构 是 从 拓扑 透视 的 角度 来 看 系统 , 它 表 示 P2P 系统 的 覆盖 网 络 结构 是 受 某 种 机 
制约 束 还 是 完全 动态 的 ,前 者 为 结构 化 ,后 者 为 非 结构 化 。 非 结构 化 PP 系统 中 对 等 结 点 
连接 任意 其 他 对 等 结 点 构成 对 等 网 络 ,数据 放置 与 网 络 拓扑 无 关 。 系 统 中 每 一 个 结 点 只 负 
责 管理 自己 的 数据 文件 ,从 而 它 的 网 络 拓扑 是 一 个 随机 连接 图 ,不 能 保证 一 定 可 以 找到 目标 
结 点 。 结 构 化 P2P 系统 的 网 络 有 某 种 预定 的 结构 ,如 环 或 者 网 格 , 系 统 中 每 一 个 数据 文件 
所 放置 的 位 置 由 特定 的 协议 确定 ,并 提供 了 文件 标识 ID 和 文件 存储 位 置 之 间 的 映射 关系 ， 
从 而 保证 具有 有 效 路 由 ,并 能 够 保证 最 终 找到 目标 结 点 。 

结构 化 系统 采用 分 布 式 哈 希 表 (Distributed Hash Table,DHT) 技 术 构造 ,其 本 质 是 完 
全 分 散 构造 。 因 此 , 仅 需 要 对 非 结构 化 系统 区 分 分 散 度 情 况 。 在 当前 的 系统 中 ,Chord、 
CAN, Pastry 和 Tapestry 是 结构 化 P2P 系统 。 而 非 结 构 化 根据 分 散 度 区 分 为 以 下 三 种 系 
5. 混合 分 散 的 非 结 构 化 P2P 系统 ,如 Napster; 完全 分 散 的 非 结构 化 P2P 系统 ,如 
Gnutella、Freenet; 部 分 分 散 的 非 结 构 化 P2P 系统 ,如 Kazza Morpheus。 根 据 此 标准 ,P2P 
系统 的 划分 如 图 2-1 所 示 。 

在 网 络 和 分 布 领域 中 ,P2P 是 一 个 相对 新 的 名 词 。 从 1999 年 Napster 出 现 及 2000 年 
P2P 成 为 研究 热点 中 以 来 ,P2?P 系统 得 到 迅速 发 展 。 这 里 按时 间 出 现 的 先后 序 , 将 P2P 系 
统 的 发 展 大 致 分 为 二 代 。 每 一 代 都 有 其 显著 的 特征 : 第 一 代 网 络 结构 为 非 结 构 化 ,第 二 代 
网 络 结构 为 结构 化 ; 第 一 代 特 点 是 采用 泛 洪 的 不 确定 查询 ,第 二 代 特 点 是 采用 基于 分 布 式 
哈 希 表 的 确定 性 查询 。 在 此 , 仅 给 出 一 个 轮廓 般 的 介绍 ,以 刻画 出 其 发 展 的 轨迹 。 


20 
等 网 络 、 网 格 计算 与 云 计算 一 一 原理 与 安全 


一 | 完全 分 散 的 非 结构 化 


(Gnutella, Freenet) 


结 
构 部 分 分 散 (Kazza) 
P2P 系 统 混合 分 散 (Napster) 


结构 化 (Chord、CAN、 Tapestry, Pastry 


图 2-1 P2P 系统 分 类 


1. 第 一 代 P2P 系统 

第 一 代 P2P 系统 是 以 非 结 构 化 为 特征 。 它 是 伴随 文件 共享 应 用 Napster? mi JF tfi] 
Napster 的 主要 贡献 是 介绍 了 一 种 新 型 的 网 络 体系 ,这 种 体系 不 同 于 传统 的 客户 端 /服务 器 
架构 ,而 是 让 计算 机 之 间 借 助 一 个 中 心服 务 器 可 以 自由 通信 交流 。 在 某 种 程度 上 ,计算 机 既 
是 资源 的 消费 者 又 是 资源 的 提供 者 ,因而 对 等 结 点 更 适合 表示 系统 内 的 参与 者 的 对 等 情况 。 
为 了 在 共享 空间 定位 文件 ,Napster 的 解决 途径 是 提供 一 个 中 心目 录 服 务 器 。 因 而 ， 
Napster 系统 由 两 种 服务 组 成 : 存储 服务 和 目录 服务 。 存 储 服 务 是 分 布 的 ,采用 了 对 等 风 
Tis ,而 目录 服务 是 集中 式 的 ,因此 它 是 一 种 混合 分 散 构 造 。 但 Napster 仅 短暂 存在 , 它 的 体 
系 结构 中 ,集中 式 的 目录 服务 是 个 关键 性 问题 。 首 先 , 它 存在 单 点 故障 问题 ; 其 次 ,尽管 目 
录 服 务 提供 了 定位 的 低 开 销 , 但 是 目录 服务 器 上 的 负载 也 是 随 参 与 者 数目 线性 增长 ,从 而 使 
得 它 是 不 可 扩展 的 。 

Napster 集中 目录 服务 器 瓶颈 导致 P2P 新 系统 设计 关注 于 如 何 减 少 这 种 集中 目录 服 
务 , 即 趋向 更 高 的 分 散 度 。Gnutellac0 和 Freenet55 是 新 的 系统 代表 ,它们 是 完全 分 散 的 非 
结构 化 系统 。 这 些 系 统 中 新 的 参与 者 必须 知道 一 个 已 经 参与 系统 的 成 员 , 然 后 使 用 一 种 
Flooding 算法 去 得 到 关于 别 的 参与 者 的 情况 ,以 建立 邻居 关系 表 。 而 对 于 一 个 给 定 的 查 
询 , 也 是 采用 Flooding 算法 。 查 询 请 求 结 点 先 将 此 请 求 通过 Flooding 算法 ,关联 到 它 的 所 
有 和 邻居 ,然后 它 的 邻居 再 做 类 似 的 Flooding 操作 ,直至 查询 发 现 。 为 了 防止 Flooding 过 度 ， 
请 求 包 附加 上 TTL 限制 值 。 当 TTL 值 为 0 时 ,查询 立即 终止 。 

新 的 系统 解决 了 集中 瓶颈 问题 ,然而 ,可 扩展 问题 却 更 为 严重 。 这 是 由 于 Flooding 算 
法 带 来 了 高 的 网 络 流量 ,此 研究 见 参考 文献 [13,14]。 而 且 , 由 于 搜索 范围 受到 限制 ,不 能 够 
确定 性 地 发 现存 在 Gnutella 网 络 中 的 一 个 数据 项 或 者 一 个 资源 文件 。 

Freenet 采用 了 一 个 略 好 些 的 方案 , 它 是 基于 文档 路 由 模型 的 。 它 利用 哈 希 技术 给 数据 
项 唯一 标识 ID。 当 数据 项 插 和 人 系统 时 , 尽 可 能 地 插入 到 具有 与 它 的 标识 最 接近 的 结 点 。 查 询 
是 由 数据 项 的 标识 所 引导 定位 的 。 但 由 于 Freenet 网 络 的 随机 特性 ,发 现 文档 的 概率 并 不 高 。 

一 些 系 统 在 混合 分 散 和 完全 分 散 间 做 了 折 中 ,采用 了 部 分 分 散 机 制 ,如 KaZaa", 
KaZaA 采用 超级 结 点 (Super Peer HER ,允许 一 些 结 点 充当 目录 服务 从 而 减少 了 需要 定位 
数据 的 Flooding 消息 数 。 尽 管 如 此 ,查询 仍然 是 不 确定 的 泛 洪 方式 。 

1) Napster 

Napster?) f — fp JH F E A 3c AE 36 M8 0E 18] 4 Dr FH ACIE EE AS ER — 1r PORE 
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的 对 等 网 络 系统 。 它 具有 一 个 中 央 服 务 器 ,里 面 保 存 了 所 有 注册 过 的 音乐 文件 ,所 有 查询 工 
作 由 中 央 服 务 器 完成 ; 如 果 有 用 户 正 想 在 Napster. 上 搜索 音乐 文件 ,并 发 送 了 查询 的 消息 ， 
那么 Napster 服务 器 就 搜索 它 的 索引 ,这 个 索引 就 是 由 各 个 对 等 结 点 发 送 来 的 Metadata 构 
造 而 成 的 。 一 旦 找到 ,用 户 就 可 以 从 对 应 的 对 等 结 点 上 直接 下 载 想 要 的 那个 文件 。 从 文件 
共享 的 角度 来 看 ,Napster 是 一 个 P2P 系统 ,然而 ,从 索引 方面 看 ,Napster 是 一 个 集中 式 的 
系统 。 目 前 我 国 的 “PP 点 点 通 ” 也 是 一 种 基于 此 原理 的 一 个 应 用 软件 ,同样 需要 中 央 服 务 器 
来 完成 注册 和 查询 , 受 单 点 失效 问题 困扰 ,可 扩展 性 不 佳 。 

2) Gnutella 

Gnutella” 是 早期 的 完全 非 集中 式 对 等 网 络 文件 共享 系统 之 一 。 系 统 中 每 个 结 点 维护 
一 些 随机 邻居 结 点 的 信息 ,通过 连续 几 次 路 由 转发 ,该 结 点 的 消息 可 以 到 达 其 他 结 点 。 在 
Gnutella 中 ,一 个 结 点 要 查找 某 个 关键 字 , 它 就 通过 向 邻居 结 点 广播 消息 ,查找 的 范围 用 
TTL 参数 来 控制 ,找到 关键 字 的 结 点 就 回复 它 的 结果 集 ,为 了 节省 带宽 ,没有 找到 关键 字 的 
结 点 就 不 需要 回复 了 。 这 种 查找 方式 只 限于 发 起 者 为 中 心 的 某 个 特定 半径 范围 以 内 ,在 超 
出 一 定 范围 后 不 能 进一步 扩展 ,因此 查找 并 不 能 保证 可 靠 性 。 这 种 方式 是 完全 非 集中 式 的 ， 
从 而 有 效 地 避免 了 单 点 失效 问题 。 但 是 它 采 用 了 广播 消息 来 进行 查找 ,其 可 扩展 性 也 不 佳 。 

3) FreeNet 

FreeNet69 是 一 种 分 布 式 信息 存储 和 检索 系统 ,其 最 大 的 特点 是 匿名 性 。 文 件 的 发 布 
者 查询 者 包括 文件 的 持 有 者 在 Freenet 中 都 是 匿名 的 。 为 了 实现 匿名 ,文件 查找 通过 带 回 
溯 形 式 的 仆 山 算法 来 进行 ,效率 不 高 。Freenet 不 能 提供 可 靠 的 内 容 查 找 , 由 于 系统 会 自 
动 删除 一 些 兴趣 度 低 的 文件 ,会 导致 系统 不 能 保证 一 定 找到 网 络 中 的 文档 ,降低 了 路 由 
效率 。 

4) Kazaa 

Kazaa"? 2 AE WY AY 5 5j Gnutella 类 似 , 是 目前 Internet 上 用 户 最 多 的 文件 共享 系 
统 , 目 前 用 户 数 已 经 超过 4 000 000。 在 Kazaa 系统 中 ,为 了 避免 Gnutella 系统 中 泛 洪流 量 
太 大 的 问题 ,采用 了 超级 结 点 策略 来 减轻 泛 洪 流量 ,即将 超级 结 点 用 作 局 部 文件 列表 服务 
器 ,从 而 可 以 减少 消息 的 转发 。 但 和 中 心目 录 服 务 器 式 Napster 不 同 的 是 ,Kazaa 的 超级 结 
点 之 间 是 Gnutella 式 的 完全 分 布 的 结构 。 由 于 超级 结 点 的 数量 较 少 ,所 以 网 络 流量 不 至 于 
过 大 ,但 这 种 途径 仍然 是 存在 可 扩展 性 不 佳 的 问题 。 

2. 第 二 代 P2P 系统 

第 二 代 的 P2P 系统 是 以 结构 化 为 特征 , 它 以 Chord? | CANC! , Pastry? , Tapestry" 45: Jg 
代表 ,系统 是 完全 分 散 组 织 。 在 这 些 系统 中 ,一 个 共有 的 关键 特性 是 基于 分 布 式 哈 希 表 机 
制 。 在 这 些 系统 中 , 结 点 以 它 的 一 些 唯一 性 属性 如 TP 地 址 ,通过 哈 希 表 得 到 唯一 标识 ID. 
数据 项 是 以 键 值 对 二 key,value> 的 方式 表示 ,其 中 键 是 对 于 数据 项 的 索引 ,而 值 可 以 是 数 
据 项 的 定位 地 址 ,如 IP 或 者 URL。 通 过 哈 希 运算 赋予 数据 索引 键 以 唯一 标识 ,并 将 此 键 对 
应 的 键 值 对 插入 与 此 键 标识 最 邻近 的 结 点 。 注 意 结 点 和 键 的 哈 希 空间 是 相同 的 。 查 询 时 ， 
通过 将 查询 的 键 通过 哈 希 表 得 到 唯一 标识 ,并 通过 此 唯一 标识 找到 与 之 最 邻近 的 结 点 (此 结 
点 存储 了 数据 项 所 在 的 地 址 )。 为 了 支持 基于 标识 ID 的 查找 , 结 点 将 经 过 喻 希 表 得 到 的 ID 
空间 组 织 成 一 个 结构 化 的 拓扑 ,如 Chord 中 的 环 (Circle) CAN 中 的 超 环 (Torus)、Tapestry 
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的 树 (Tree)。 由 于 这 种 结构 化 拓扑 ,使 得 数据 查找 具有 可 确定 性 , 即 数据 只 要 存在 又 加 网 
络 上 就 可 以 以 高 概率 确定 性 查找 到 。 

当前 两 代 P2P 系统 并 存 且 都 得 到 相应 的 发 展 。 它 们 适应 于 不 同 的 方面 , 互 为 补充 。 第 
一 代 系 统 在 文件 共享 等 并 不 需要 确定 性 的 查询 结果 的 领域 会 有 更 广阔 的 前 途 。 因 为 非 结 构 
化 性 提供 松散 的 组 织 特性 ,可 以 让 参与 者 有 充分 自由 度 , 而 在 最 大 限度 减少 对 P2P 系统 的 
影响 。 第 二 代 系 统 极 大 拓展 了 P2P 系统 的 应 用 领域 ,使 P2P 系统 成 为 分 布 计算 的 一 个 良好 
的 平台 ,其 至 成 为 下 一 代 因 特 网 应 用 的 基础 "3。 这 是 由 于 采用 分 布 式 喻 希 表 在 完全 分 布 的 
环境 下 具有 高 度 确定 性 和 高 度 容 错 的 特性 ,因而 它 能 够 更 好 地 适应 大 多 数 分 布 式 应 用 的 
要 求 。 

现 有 的 对 等 网 络 可 按 结 点 路 由 表 (Finger Table) 的 结构 特性 来 分 类 5 ,可 分 为 非 结 构 
化 对 等 网 络 .结构 化 对 等 网 络 和 混合 对 等 网 络 。 在 非 结 构 化 对 等 网 络 中 (如 Gnutella?? ) 
中 ,对 等 结 点 连接 任意 其 他 对 等 结 点 构成 对 等 网 络 ,数据 放置 与 对 等 网 络 拓扑 无 关 。 
Chord“! , Tapestry) , Pastry? 和 CAN 中 则 属于 结构 化 对 等 网 络 , 这 类 网 络 提供 了 文件 的 索 
引 位 置 和 文件 存储 位 置 之 间 的 映射 关系 ,从 而 保证 有 效 路 由 。 混 合 对 等 网 络 是 仍然 采用 
Finger 表 , 但 该 表 的 索引 项 分 为 两 部 分 ,一 部 分 是 按照 结构 化 对 等 网 络 来 构造 , 另 一 部 分 是 
按照 非 结 构 化 索引 来 构造 ; 或 者 在 对 等 网 络 中 一 部 分 结 点 的 Finger 表 采 用 结构 化 方式 来 
构造 , 另 一 部 分 结 点 的 Finger 表 采 用 非 结 构 化 方式 构造 。 

对 等 网 络 Overlay 层 上 的 关键 问题 是 路 由 效率 问题 。 总 体 来 看 查询 方式 主要 分 为 两 
种 : 一 种 是 非 结 构 化 查询 ; 另 一 种 是 结构 化 查询 。 非 结构 化 查询 如 Gnutella, Freenet 等 , 采 
用 的 是 泛 洪 方法 ,搜索 的 范围 是 用 TTL 参数 来 控制 的 ,很 显然 搜索 在 超出 一 定 范围 后 不 能 
进一步 扩展 ,而 且 搜 索 只 限于 以 发 起 者 为 中 心 的 某 个 特定 半径 范围 以 内 。 因 此 搜索 并 不 能 
保证 可 靠 的 定位 服务 ,即使 在 泛 洪 算法 上 进行 性 能 改进 ,如 采用 随机 泛 洪 算法 等 ,查找 的 确 
定性 仍 是 个 问题 。 结 构 化 路 由 如 Tapestry, Pastry, Chord, CAN 等 ,它们 都 是 基于 DHT 
(Distributed Hash Table) ER ,查找 时 只 需要 将 关键 词 进行 哈 希 计算 ,得 到 的 结果 就 是 放 
置 文件 或 索引 的 结 点 ID。 因 此 该 方式 的 查找 具有 确定 性 ,而 且 具 有 可 扩展 性 能 好 、 容 错 性 
能 高 等 优点 。 目 前 主流 的 基于 DHT 的 P2P 系统 算法 如 下 : 

1) Tapestry 算法 

Tapestry 是 B. Zhao,Kubiatowicz 和 Joseph552-~ 约 等 提出 的 一 种 新 型 Overlay 定位 和 
路 由 算法 ,是 目前 主要 非 集中 式 定位 和 路 由 的 研究 项 目 之 一 。Tapestry 算法 是 对 PRR97 
算法 的 改进 和 扩充 ,增加 如 下 新 特点 : 利用 软 状态 信息 (Soft State Information) ,提供 自 管 
理 功能 .强壮 性 .可 扩展 性 ,动态 自 适应 性 ,在 出 现 结 点 、 网 络 失败 和 高 负载 时 ,实现 平滑 降低 
系统 性 能 ,不 需要 任意 结 点 来 维护 全 局 信息 ,能够 避免 根 结 点 的 脆弱 性 和 缺乏 适应 性 。 

Tapestry 是 动态 广 域 环境 中 对 象 命名 查找 和 消息 路 由 系统 的 理想 解决 方案 ,通过 点 
对 点 ,无 须 集 中 服务 的 计算 模型 就 可 以 发 送 消息 ,查找 距离 最 近 的 对 象 拷贝 。Tapestry 的 
主要 实现 方式 是 通过 随机 分 布 结 点 NodeID 和 对 象 ObjectID 来 取得 负载 平均 分 配 ,另外 通 
过 利用 路 由 位 置信 息 可 以 部 分 提高 系统 性 能 。 

Tapestry 存在 的 性 能 缺陷 在 于 : 消息 经 常 需要 经 过 路 由 多 个 无 用 的 底层 Internet 的 自 
治 系统 (Autonomous Systems,AS) 和 管理 域 以 后 才能 达到 目的 结 点 ,一 个 Overlay 路 由 往 
往 会 导致 跨越 多 个 AS 系统 ,消耗 网 络 带宽 ,使 网 络 延 时 大 幅 上 升 ,其 根本 原因 就 在 于 
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Overlay 网 络 拓扑 和 路 由 是 独立 于 底层 Internet 网 络 拓扑 和 路 由 的 。 

2) Pastry 算法 

Pastry? f& Microsoft 公司 和 Rice 大 学 共同 发 起 的 对 等 网 络 路 由 算法 。 在 该 算法 中 ， 
每 个 结 点 有 一 个 标识 号 ID ,并 且 维 护 一 个 logon 行 .2 一 1 列 的 路 由 表 , 一 个 邻居 集 和 一 个 
叶子 集 。 

Pastry 的 查找 路 由 算法 是 根据 “关键 字 ” 将 信息 路 由 到 结 点 。 查 找 时 ,首先 在 叶子 集中 
查找 是 否 存 在 目的 结 点 ,如 果 关 键 字 落 入 叶子 集中 的 ID 范围 内 ,信息 就 被 转发 到 具有 在 数 
值 上 最 近 ID 的 结 点 ,否则 ,从 路 由 表 中 选择 一 个 比 现 有 结 点 有 更 多 共同 前 级 的 结 点 号 ,把 查 
询 转 交 给 这 个 结 点 以 便 下 一 步 查询 。 如 果 仍 然 不 可 能 , 则 在 叶子 集中 寻找 与 其 ID 具有 相同 
前 级 长 度 但 数值 是 最 接近 关键 字 的 结 点 。 依 此 进行 ,直到 找到 目的 结 点 。 这 种 算法 通常 需 
要 logon 跳 才 能 完成 查找 操作 。 

Pastry 与 Tapestry 有 许多 类 似 点 : 使 用 匹配 前 绥 或 者 后 缀 地 址 的 路 由 方法 .插入 和 删 
除 算法 和 类 似 的 存储 开销 代价 。Pastry 与 Tapestry 的 区 别 在 于 : 第 一 ,Pastry 中 对 象 复制 
无 须 由 所 有 者 来 控制 ,在 对 象 的 发 布 过 程 中 ,对 象 经 过 复制 后 其 复制 对 象 放 到 与 对 象 编号 最 
接近 的 多 个 结 点 上 ; 第 二 ,Tapestry 在 服务 器 和 根 结 点 之 间 路 由 转发 过 程 中 放置 对 象 指针 
信息 ,而 在 Pastry 中 ,客户 端 通过 对 象 编号 ObjectID 直接 路 由 到 保存 对 象 复制 点 附近 ,这样 
在 实际 网 络 中 多 个 复制 对 象 存在 于 实际 物理 网 络 的 不 同 结 点 上 ,在 多 个 结 点 增加 存储 开销 ， 
带 来 安全 性 ,保密 性 和 一 致 性 等 问题 ; 第 三 ,与 Tapestry 的 Surrogate Routing 算法 相 比 ， 
Pastry 的 逻辑 路 由 跳 数 界限 具有 较 弱 的 理论 分 析 性 , Tapestry 在 确定 路 由 距离 时 具有 可 证 
明 的 理论 分 析 性 、 完 备 定义 性 和 概率 界限 ,并 保证 能 够 找到 已 存在 的 可 到 达 对 象 ; 第 四 ， 
Pastry 的 定位 方法 在 即使 对 象 位 于 客户 端 附近 时 ,也 需要 连续 路 由 ,不 能 充分 利用 本 地 性 ， 
对 本 地 对 象 定位 可 能 带 来 较 高 的 RDP( 相 对 平均 延迟 开销 ) 值 。 

3) Chord 算法 

Chord 算法 [中 是 由 MIT 提出 的 一 种 分 布 式 查找 协议 ,提供 一 种 基于 DHT 的 有 效 分 布 
式 查 找 服务 。 每 个 结 点 对 应 一 个 m 位 长 度 的 名 字 空 间 , 并 保存 该 结 点 后 面 21 2*2" 个 
结 点 的 指针 信息 , 结 点 n 路 由 表 的 第 i 个 指针 指向 当前 结 点 后 面 第 2 一 :位置 的 第 一 个 结 
点 ,每 个 key 保存 在 结 点 编号 不 小 于 该 key 编号 的 第 一 个 结 点 上 ,每 个 结 点 仅 需要 O(logn) 
(本 书 将 logon 简 记 为 logn) 大 小 的 存储 空间 来 保存 路 由 层 的 拓扑 信息 Finger Table。 当 查 
找 信息 key 时 ,首先 计算 Hash(key) ,然后 在 本 结 点 的 Finger Table 中 查找 等 于 或 小 于 但 最 
接近 Hash(key) 的 结 点 ,并 把 查询 请 求 转 发 到 该 结 点 。 然 后 递归 执行 以 上 步骤 ,直到 最 终 查 
找 成 功 。 该 算法 的 时 间 复 杂 度 为 O(logn)。Chord 算法 提供 与 Tapestry 算法 类 似 的 存储 和 
逻辑 路 由 跳 数 (Hop) 界 限 。 注 意 二 者 主要 的 区 别 是 Chord 算法 中 Overlay 网 络 距 离 和 底层 
物理 网 络 距 离 无 关 , 因 此 有 可 能 在 逻辑 路 由 距离 较 近 时 ,物理 路 由 距离 却 较 远 。 

4) CAN 算法 

CAN(Content Addressable Network)?” 是 由 Berkeley 提出 的 一 种 非 集中 式 查找 算 
ik. CAN 模型 将 结 点 映射 到 维 的 坐标 空间 .根据 服务 器 的 密度 和 负载 情况 ,该 坐标 空间 
分 成 nn 维 坐 标 空间 区 域 .每 个 物理 机 器 对 应 一 个 区 域 , 并 维护 由 哈 希 函数 映射 到 该 区 域 的 数 
据 和 邻居 信息 。 查 找 时 ,根据 目标 点 坐标 ,从 本 结 点 开始 沿 着 它 的 邻居 点 进行 查询 ,直到 找 
到 目的 结 点 。 在 d 维 空间 中 ,每 个 结 点 维护 2d 个 邻居 位 置信 息 , 即 空间 复杂 度 为 24 的 平 
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piedi I HE (4/4) (n), 

CAN 5 Tapestry 有 多 处 差异 ,首先 ,Tapestry 的 树 形 Overlay 结构 即使 从 网 络 中 不 同 
结 点 位 置 出 发 到 达 同 一 个 目的 结 点 能 够 迅速 收敛 ,使 用 结 点 内 部 的 位 置信 息 和 启发 式 功能 
使 Tapestry 的 查询 位 置信 息 更 加 迅速 ,同时 查询 模式 的 适应 性 也 可 以 通过 上 层 应 用 来 完 
成 ,而 CAN 假定 对 象 不 可 改变 ,在 对 象 改 变 后 必须 重新 插入 到 CAN 中 ; 其 次 ,Tapestry 网 
络 拓扑 使 用 本 地 网 络 延迟 作为 距离 度量 ,近似 接近 实际 物理 网 络 ,CAN 与 Chord 一 样 ,在 构 
造 网 络 并 没有 完全 考虑 实际 网 络 的 距离 ,结果 CAN 的 逻辑 路 由 会 导致 高 昂 的 代价 ,甚至 逻 
辑 邻 居 之 间 的 一 次 路 由 转发 会 导致 物理 IP 网 络 的 多 次 路 由 。CAN 的 主要 优点 在 于 结 点 加 
入 算法 的 简洁 性 ,能 够 更 好 地 适应 动态 变化 的 网 络 环境 (如 传感器 网 络 ) 。 

综 上 所 述 ,各 自 算法 的 性 能 如 表 2-1 所 示 。 


表 2-1 各 种 P2P 路 由 算法 的 综合 性 能 比较 


P2P Systems Napster Gnutella Pastry Tapestry Chord CAN 
Overlay 层 构 造 无 无 超 立 方 结构 — 超 立 方 结构 环 网 格 
空间 复杂 度 O(n 依 条 件 定 O(logn) O(logn) O(logn) Ota) 
时 间 复 杂 度 oa) od) O(logn) O(logn) O(logn) Oln?) 
路 由 表 项 = — O(logn) O(logn) O(logn) Old) 

5) 小 世界 模型 


为 了 解决 P2P 网 络 中 的 对 等 结 点 快速 定位 的 问题 ,计算 机 科学 家 们 借用 并 发 展 了 社会 
科学 家 们 针对 于 社会 中 的 小 世界 现象 提出 的 小 世界 模型 。 

1976 年 ,哈佛 大 学 教授 Milgram 1 做 了 这 样 一 个 实验 ,在 内 布 拉 斯 加 州 的 奥马 哈 随 机 
选 出 160 名 当地 居民 ,让 他 们 每 人 设法 将 一 封 信 传 递 到 麻 省 的 波士顿 市 的 一 个 零售 店主 手 
中 。 这 些 人 将 信 交 给 他 认为 最 接近 目标 的 一 位 朋友 手中 , 接 下 来 由 这 位 朋友 以 同样 的 方式 
传递 到 下 一 位 朋友 手中 ,直到 最 后 信 送 达 目 标 人 手中 。 最 后 有 42 封 信 到 达 了 目标 人 手中 ， 
而 且 这 些 信 的 平均 中 间 传 递 人 数 为 5. 5 人 。 相 比较 2 亿美 国人 口 ,这 个 数字 显得 非常 低 。 
这 就 是 非常 有 名 的 “小 世界 ”现象 。 

最 早 对 小 世界 现象 进行 建 模 的 是 Pool 和 Kochen"? .该 模型 中 每 个 结 点 均匀 地 从 所 有 
其 他 结 点 中 随机 地 选择 少量 的 结 点 然后 连 边 。 但 是 这 个 模型 并 不 能 很 好 地 解释 社会 中 的 社 
区 问题 。 也 即 尽管 我 们 两 个 人 相互 认识 ,但 你 认识 的 绝 大 部 分 人 我 却 都 不 认识 ,这 点 不 符合 
社会 常识 。 随 后 , Watts 和 Strogatz) 于 1998 年 在 (Nature》 上 提出 了 Watts & Strogatz 
Model 模型 ,该 模型 认为 相识 边 分 为 两 种 ,每 个 结 点 拥有 大 量 的 近邻 边 (Local 边 ) ,少量 的 远 
亲 边 (Long-Range 边 )。 和 远亲 从 远 结 点 中 均匀 随机 选择 。 正 是 这 个 模型 的 提出 ,使 得 P2P 
的 应 用 研究 有 了 理论 指导 。Freenet 主要 就 是 依据 该 模型 建立 的 。 另 外 ,在 2000 年 ,Jon 
Kleinberg 泛 化 了 Watts & Strogatz Model 模型 ,其 在 (Nature》 上 指出 : 该 模型 提出 选择 远 
亲 时 ,概率 应 与 离 该 结 点 的 曼哈顿 距离 d 有 关 , 两 点 以 概率 d 一 连 边 。 并 给 出 了 即使 仅 拥 有 
距离 为 1 的 近邻 和 一 个 远亲 ,其 算法 的 链 长 也 不 会 超过 O(log?z) 。 正 是 因为 这 篇 文章 作为 
坚实 的 理论 依据 ,在 2001 年 ,一 系列 的 非 结 构 化 、 结 构 化 算法 被 提 了 出 来 。 

3. 新 型 P2P 系统 


CAN, Chord, Pastry, Tapestry 等 系统 都 是 确定 性 拓扑 。 最 近 为 了 进一步 提高 路 由 效 
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率 ,学 者 们 又 提出 了 一 些 新 型 Overlay 层 拓扑 结构 。 

1) SkipNet 

SkipNet 是 2003 年 提出 的 新 型 的 结构 化 P2P 的 拓扑 架构 。SkipNetc9 使 用 了 跳 表 
(SkipList) 的 数据 结构 。SkipNet 架构 采用 了 双 标 识 的 结构 ,为 每 个 结 点 指定 了 NumericID 
和 NameID 两 个 标识 以 便 更 好 地 控制 路 由 和 拓扑 结构 。 其 中 NumericID 标识 决定 结 点 的 
分 组 情况 以 及 结 点 与 组 之 间 的 隶属 关系 ; 而 NamelD 标识 用 来 决定 结 点 在 每 个 路 由 环 上 的 
位 置 或 坐标 。 所 有 结 点 以 它 所 在 的 定位 区 域名 被 排序 ,然后 以 跳 表 方式 形成 统一 的 结构 化 
拓扑 。 

SkipNet 这 种 标识 自己 分 工 的 做 法 有 效 地 提高 了 路 由 效率 , 减 小 了 网 络 延 迟 ,是 新 型 
P2P 拓扑 结构 的 代表 。 

2) Koorde 

Koorder 外 将 数据 分 布 于 de Bruijn 图 中 。 每 个 结 点 有 一 个 1 位 标识 6,6,-1…0b1 ,并 连接 
到 标识 为 5-16,-，。…b10 和 标识 为 5-16,-。…b11 的 两 结 点 。 它 提供 了 “常量 度 路 由 ”,t 增 大 
有 利于 改善 容错 。 


2.2 对 等 网 络 应 用 领域 


P2P 计算 引导 网 络 计算 模式 从 集中 式 向 分 布 式 偏 移 , 也 就 是 说 网 络 应 用 的 核心 从 中 央 
服务 器 向 网 络 边缘 的 终端 设备 扩散 。 这 使 人 们 在 Internet 上 的 共享 行为 被 提 到 了 一 个 更 高 
的 层次 ,使 人 们 以 更 主动 的 方式 参与 到 网 络 中 去 ,每 个 人 都 能 为 网 络 的 资源 和 功能 扩展 做 出 
自己 的 贡献 。 

从 目前 的 情况 来 看 ,P2P 计算 主要 应 用 在 文件 共享 .普及 计算 .协同 工作 .搜索 引擎 以 及 
广域网 络 存储 等 方面 。 


2.2.1 文件 共享 


文件 共享 是 P2P 最 为 流行 的 应 用 也 是 最 为 典型 的 应 用 之 一 ,还 是 P2P 技术 革命 的 闪光 
JR. Napster” feit t5 JH P! e Internet 上 共享 MP3 音乐 文件 的 P2P 应 用 ,与 传统 的 音乐 
共享 技术 不 同 的 是 Napster 把 音乐 文件 存储 在 客户 结 点 上 而 不 是 存储 在 服务 器 结 点 上 。 中 
心服 务 器 上 存储 的 仅 是 文件 的 索引 信息 ,用 户 之 间 可 以 直接 共享 .传输 音乐 文件 而 不 需要 通 
过 中 心 索引 服务 器 。 采 用 这 种 方式 来 共享 信息 资源 可 以 更 加 充分 地 利用 网 络 中 的 带宽 资 
源 ,从 而 提高 了 系统 数据 通信 的 效率 。Napster[29 Gnutella? 和 Freenet"?! 等 文件 共享 系 
统 被 认为 是 P2P 领域 非常 成 功 的 范例 。 


2.2.2 普及 计算 


普及 计算 技术 研究 的 是 如 何 充分 利用 网 络 中 各 种 各 样 的 计算 资源 来 共同 完成 大 规模 的 
计算 任务 。 此 类 应 用 属于 计算 型 资源 共享 ,GRIDEO 和 SETIG Home 是 该 类 型 应 用 的 典型 
代表 。SETIQ@ Home 是 Berkeley 大 学 启动 的 普及 计算 的 研究 项 目 。 该 项 目 是 利用 该 大 学 
的 空间 科学 实验 室 开 发 的 屏幕 保护 程序 来 使 用 空闲 时 的 计算 机 ,该 屏幕 保护 程序 在 运行 时 
分 析 在 外 星系 文明 研究 项 目 中 所 获得 的 无 线 电信 和 号 ,程序 运行 结 点 从 中 心服 务 器 结 点 下 载 
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数据 后 进行 计算 ,然后 再 将 计算 结果 上 载 到 该 实验 室 的 中 心服 务 器 上 ,因为 不 是 完全 的 P2P 
计算 模式 ,所 以 结 点 之 间 不 能 直接 利用 彼此 计算 的 数据 。 


2.2.3 协同 工作 


协同 工作 是 指 多 个 用 户 之 间 利 用 网 络 中 的 协同 计算 平台 互相 协同 完成 计算 任务 ,共享 
信息 资源 等 。Groover 是 基于 Internet 的 P2P 协同 应 用 软件 的 典型 代表 ,其 用 户 可 以 直接 
进行 实时 的 协同 工作 。 


2.2.4 广域网 络 存 储 


传统 网 络 存储 采用 集群 方式 需要 高 容量 高 性 能 服务 器 ,这 需要 一 笔 很 大 投资 ,而 且 缺 乏 
本 地 特性 ,可 扩展 性 也 受到 很 大 限制 。P2P 技术 提供 了 经 济 的 .具有 本 地 特性 、 灵 活 方便 的 
可 扩展 功能 ,因而 受到 极 大 关注 。 特 别 是 为 了 保障 网 络 中 存储 的 资源 能 够 确定 性 查找 ,基于 
DHT 的 P2P 系统 方案 是 一 个 重要 的 选择 。 目 前 大 部 分 P2P 网 络 存储 是 基于 DHT 技术 。 
下 面 介绍 典型 的 网 络 存储 应 用 。 

OceanStore? 提供 了 全 球 范 围 内 的 一 致 性 数据 存储 ,采用 Tapestry 作为 底层 的 路 由 机 
制 。 它 可 以 自动 从 服务 器 和 网 络 的 失效 中 恢复 ,并 可 以 混合 使 用 新 的 资源 和 适应 不 同 的 使 
HWER., PAST jè Rice 大 学 和 微软 研究 院 的 联合 研究 项 目 , 它 采用 大 规模 协同 的 分 布 文 
件 存储 ,提供 可 扩展 性 、 可 用 性 、 安 全 性 和 协同 资源 共享 ,采用 Pastry 作为 它 的 路 由 机 制 。 
它 的 存储 特性 是 : 文件 所 有 者 可 以 发 布 也 可 以 收回 文件 的 存储 ,提供 的 是 一 致 性 存储 。 
CFSP9 && MIT 的 研究 项 目 , 它 提供 了 一 致 性 的 分 布 协同 文件 存储 ,采用 Chord 作为 它 的 路 
由 机 制 。 从 文件 系统 的 可 读 写 角度 看 ,PAST 系统 仅 支持 只 读 , 而 CFS 虽然 基本 上 也 是 只 
读 文件 系统 ,但 也 存在 粗 粒 度 的 修改 , 即 文件 所 有 者 可 以 修改 ,而 其 余 只 能 读 。 因 此 ,可 读 写 
的 文件 存储 系统 是 进一步 的 研究 对 象 。IVY' 洒 是 MIT 最 近 的 项 目 成 果 , 它 是 一 个 多 用 户 
可 读 写 P2P 文件 系统 ,基于 Chord 通信 子 层 ,适合 广 域 的 小 型 协作 组 。IVY 使 得 这 些 组 避 
开 了 集中 式 文件 服务 器 所 固有 的 可 靠 性 和 信任 问题 。 一 个 IVY 文件 系统 只 由 一 组 日 志文 
件 组 成 ,每 一 个 用 户 对 应 一 个 日 志文 件 。 每 一 个 参与 者 通过 协商 所 有 日 志文 件 查询 数据 ,但 
是 修改 则 只 是 修改 自己 所 有 的 日 志文 件 。 这 种 安排 使 得 IVY 可 以 不 通过 锁 机 制 就 可 维护 
元 数据 一 致 性 。 当 底层 网 络 是 满 连 接 时 ,IVY 提供 NFS-Like 传统 语义 ,如 Close-to-Open 
一 致 性 ; 当 网 络 分 区 时 ,DHASH 层 的 复制 使 得 修改 可 在 分 区 内 进行 ,并 借助 每 一 个 日 志文 
件 所 具有 的 版 本 标识 实现 分 区 合并 时 的 一 致 性 。Mnemosyne5s59 是 基于 Tapestry 的 安全 存 
储 系 统 , 仅 合法 的 用 户 能 够 存 取 存 储 文件 ,而 攻击 者 不 能 够 得 到 它们 的 内 容 。 文 件 通过 编码 
技术 加 密 存 取 , 保 证 了 容错 性 ,编码 技术 如 Erasure Code“?! 。 


2.2.5 网 页 发 布 和 缓存 


传统 网 页 发 布 和 缓存 是 由 高 性 能 服务 器 提供 的 ,存在 Flash Crowd 问题 cs] P2P 技术 
可 以 通过 各 对 等 结 点 的 数据 缓存 而 减轻 请 求 热点 ,并且 使 得 网 页 可 以 由 全 球 结 点 共同 提供 ， 
减轻 了 对 服务 器 的 依赖 。DHT 技术 特性 使 得 定位 自主 :不 必 依 赖 协调 器 的 定位 服务 (如 
YouServ? ) ,使 其 有 更 大 的 可 扩展 性 和 灵活 性 。 

Squirrel f2— SEF Pastry 的 分 散 式 的 P2P 网 页 缓存 。 系 统 聚 集 所 有 本 地 缓存 形 
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成 一 个 全 球 可 扩展 的 网 页 缓存 ,而 且 并 不 需要 附加 的 维护 开销 或 者 硬件 投资 。 实 验 结果 表 
明 开 发 这 样 的 一 个 系统 不 仅 是 可 行 的 ,而 且 比 特定 的 网 页 服务 器 有 更 多 的 益处 。 

Coral) AA KE 3E-T. DAT 的 网 页 内 容 分 发 系统 。 每 一 结 点 均 可 复制 并 存储 网 页 
内 容 。 所 有 结 点 的 缓存 协同 工作 ,任何 时 候 都 尽 可 能 将 所 需要 内 容 从 邻近 结 点 得 到 ,从 而 使 
得 提供 网 页 的 最 初 服务 器 上 负载 最 小 化 并 尽 可 能 减少 客户 端的 延迟 。 


2.2.6 组 通信 


由 于 DHT-P2P 系统 中 采用 连通 图 拓扑 来 组 织 结 点 ,因而 适用 于 组 通信 。 

Pastry 已 经 被 用 作 Scribe? fj SEM. Scribe 是 一 个 事件 通知 体系 ,用 于 基于 主题 的 出 
版 /订阅 系统 。 订 阅 者 注册 其 感 兴趣 的 主题 并 接收 与 该 主题 相关 的 事件 。 一 个 组 播 树 用 于 
维护 每 个 相关 于 一 个 会 合 点 (Rendezvous, 比 如 释 加 网 上 一 个 最 接近 主题 标识 的 结 点 ) 的 主 
题 。 每 个 树 由 通过 加 入 从 订阅 者 到 特定 主题 的 路 由 所 组 成 。 

DHT-P2P 系统 也 在 应 用 层 广播 外 以 及 应 用 层 组 播 *' 匀 得 到 应 用 ,特别 是 应 用 层 组 播 。 
应 用 层 组 播 顾 名 思 义 就 是 在 应 用 层 实 现 组 播 功 能 而 不 需要 网 络 层 的 支持 。 这 样 就 可 以 避免 
出 现 由 于 网 络 层 迟 迟 不 能 部 署 对 组 播 的 支持 而 使 组 播 应 用 难以 进行 的 情况 。 应 用 层 组 播 需 
要 在 参加 的 应 用 结 点 之 间 实 现 一 个 可 扩展 的 、 支 持 容 错 能 力 的 释 加 网 络 , 而 大 规模 喻 希 表 查 
找 机 制 正好 为 应 用 层 组 播 的 实现 提供 了 良好 的 基础 平台 。 当 前 有 两 种 途径 用 于 组 播 : 智能 
YUE intelligent Flooding) 和 组 播 树 (Multicast Tree) 。 前 者 用 于 基于 CAN 的 M-CAN"™*), 
后 者 用 于 Scribe! fl SplitStream55 ,后 者 都 是 基于 Pastry。 两 种 途径 在 相同 的 工作 负载 
下 的 比较 ,显示 组 播 树 比 泛 洪 途 径 性 能 优越 "9 。 


2.2.7 名字 服务 


DHT 机 制 通过 哈 希 得 到 的 键 值 对 的 方式 及 处 理 使 得 它 非常 适用 于 名 字 服 务 系统 ,使 
名 字 服 务 系统 具有 高 效 、 准 确 .高 可 扩展 等 特性 。 

简单 分 布 式 安 全 体系 (Simple Distributed Security Infrastructure,SDSI) 是 一 个 已 提出 
的 公 钥 体系 ,其 中 名 字 定 义 在 本 地 的 名 空间 (Namespace) 并 且 长 文件 名 能 够 链接 多 个 名 空 
间 来 代理 使 用 认证 的 信任 。ConChord' 外 是 一 个 基于 Chord 的 分 布 式 SDSI 认证 目录 服务 ， 
用 于 多 名 空间 的 名 字 解 释 和 成 员 检验 ,检查 一 个 认证 对 于 一 个 特定 的 钥 (Key) 是 否 可 用 。 
DHash'*? fi Chord 作为 提供 DNS 服务 的 一 个 可 选 服务 结构 ,DNS 中 的 “主机 名 、 地 址 ”对 
通过 DHT 技术 能 够 以 分 布 式 方式 存储 ,从 而 有 利于 减轻 DNS 树 结 构 查 找 的 负载 不 均衡 、 
根 结 点 瓶颈 等 问题 。 


2.2.8 信息 检索 


搜索 引擎 是 目前 人 们 在 网 络 中 信息 检索 的 主要 工具 。 目 前 的 搜索 引擎 (如 Google, 
Yahoo 等 ) 都 是 集中 式 的 搜索 引擎 。 这 种 信息 搜索 方式 是 一 种 被 动 的 搜索 方式 ,用 户 不 能 够 
主动 将 自己 的 信息 发 布 到 搜索 引擎 上 ,也 不 能 够 保持 搜索 引擎 所 采集 数据 的 实时 性 。P2P 
技术 能 够 提供 一 种 主动 的 、 实 时 性 、 高 扩展 性 的 信息 检索 ,开辟 了 信息 检索 的 新 方向 。DHT 
技术 相 比 较 于 其 他 非 结构 化 技术 使 得 信息 能 够 以 一 种 确定 的 高 效 方式 定位 ,因而 引起 特别 
的 关注 。 
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参考 文献 [50] 较 为 全 面 地 讨论 了 构造 P2P 搜索 引擎 所 要 面 对 的 困难 ,并 做 出 了 可 行 性 
分 析 , 特 别 是 对 于 基于 DHT 技术 的 全 文本 网 页 搜索 ,提出 了 合理 化 的 技术 建议 和 一 些 创 新 
的 优化 技术 。PeerSearch' 是 第 一 个 具有 分 散 化 、 确 定性 和 非 泛 洪 的 PP 信息 搜索 系统 ， 
可 基于 内 容 和 语义 进行 搜索 。PIERr J 提供 了 在 Internet 范围 的 P2P 信息 检索 ,能 够 提供 
基于 关系 查询 的 语义 支持 。 


2.3 分 布 式 哈 希 表 与 P2P 系统 


2.3.1 分 布 式 哈 希 表 简 史 和 技术 原理 


分 布 式 喻 希 表 (Distributed Hash Table,DHT) 作 为 可 扩展 的 分 布 式 数 据 结 构 (Scalable 
Distributed Data Structure, SDDS) ,在 20 世纪 90 年 代 得 到 广泛 研究 ,SDDS 是 在 Litwin 等 
的 经 典 论文 [59 中 提出 的 。 但 是 ,这 些 分 布 式 哈 希 表 有 中 心 部 件 ,设计 面向 的 是 小 规模 的 集 
群 。 面 向 大 规模 集群 的 分 布 式 哈 希 表 由 Gribble 4569 3& JH Java 实现 ,具有 高 度 可 扩展 性 、 
容错 性 和 可 用 性 。 

分 布 式 哈 希 表 技 术 应 用 到 对 等 网 络 是 在 2001 年 。 一 系列 的 基于 分 布 式 哈 希 表 的 P2P 
系统 5 被 提出 。 这 些 系统 采 用 分 布 式 哈 希 表 技术 能 够 支持 上 百 万 的 机 器 动态 参与 ,具有 
高 度 的 可 扩展 性 和 容错 性 。 目 前 ,基于 分 布 式 喻 希 表 技 术 构 造 的 P2P 系统 已 经 成 为 P2P W 
究 的 一 项 重要 内 容 。 

下 面 简单 介绍 一 下 P2P 系统 中 分 布 式 哈 希 表 技术 原理 。 

哈 希 表 是 计算 机 科学 里 常见 的 数据 结构 , 它 能 够 根据 索引 的 关键 码 值 快 速 查找 记录 。 
它 通常 提供 两 种 基本 功能 : put 和 get 操作 ,也 就 是 put(key,value) ,value 二 get(key) , HF 
均 查 找 时 间 为 常量 度 O(1)。 分 布 式 喻 希 表 是 喻 希 表 的 分 布 式 构造 ,将 哈 希 表 由 单个 结 点 扩 
展 到 Internet 上 。 由 于 分 布 式 哈 希 表 是 布置 在 整个 Internet. 上 ,put 和 get 操作 需要 借助 于 
分 布 路 由 而 实现 。 哈 希 表 与 分 布 式 哈 希 表 的 对 照 如 表 2-2 所 示 。 


R22 哈 希 表 与 分 布 式 哈 希 表 对 照 


"od X 分 布 式 哈 希 表 


Key=hash(data) 
Lookup(key) — — node IP 
Route(node_IP, put, key, value) 


Key=hash(data) 
Put(key, value) 
Get(key) — value 


Route(node IP, get, key) — > value 


在 P2P 系统 中 是 怎样 采用 分 布 式 哈 希 表 实 现 资 源 定位 呢 ? 

具体 方法 是 首先 将 网 络 中 的 每 一 个 结 点 分 配 虚拟 地 址 标识 NodeID, 同 时 用 一 个 关键 字 
key 来 表示 其 可 提供 的 共享 内 容 。 取 一 个 哈 希 函数 ,这 个 函数 可 以 将 key 置换 成 一 个 险 希 
值 H(key)。 网 络 中 结 点 相 邻 的 定义 是 喻 希 值 相 邻 。 发 布 信息 的 时 候 就 把 (key, NodeID) 二 
元 组 发 布 具有 和 H(key) 相 近 地 址 的 结 点 上 去 .其 中 NodelD 指出 了 文档 的 存储 位 置 。 资 源 
定位 的 时 候 ,就 可 以 根据 H(key) 相 近 的 结 点 ,快速 获取 二 元 组 (key, NodelD) ,从 而 获得 文 
档 的 存储 位 置 。 不 同 的 DHT 算法 决定 了 P2P 网 络 的 逻辑 拓扑 ,比如 CAN 是 一 个 超 环 ,而 
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Chord 是 一 个 环 ,Tapestry 是 树 状 。 

分 布 式 哈 希 表 提 供给 P2P 系统 设计 以 非常 简洁 高 效 的 接口 ,然而 ,在 实际 应 用 中 ,分布 
式 险 希 表 的 设计 要 考虑 如 下 三 个 关键 问题 : 

(1) 唯一 性 : 哈 希 函数 必须 避 开 碰撞 或 者 碰撞 概率 非常 小 以 至 忽略 不 计 。 

(2) 动态 性 : 哈 希 函数 必须 能 够 支持 结 点 动态 加 入 和 离开 的 一 致 性 。 

(3) 合理 尺寸 : 哈 希 表 必 须 能 够 支持 可 扩展 性 ,不 能 在 单个 结 点 上 占用 太 大 的 空间 。 

对 于 第 一 个 问题 ,可 以 通过 定义 一 个 固定 的 足够 大 的 哈 希 空间 ,使 所 有 哈 希 值 落 在 此 空 
间 而 不 依赖 结 点 的 数目 ,从 而 在 静态 或 者 动态 下 能 够 避 开 碰撞 。 对 于 第 二 个 问题 通常 采用 
的 是 一 致 性 哈 希 方案 。 一 致 性 哈 希 方案 最 初 是 由 MIT 的 Karger 等 5 引入 以 解决 分 布 组 
存 中 的 热点 问题 ,目前 已 经 被 扩展 到 很 多 领域 ,特别 是 P2P 计算 中 。 一 致 性 哈 希 是 哈 希 中 
的 一 种 ,但 它 具 有 如 下 特性 使 其 特别 适应 动态 分 布 的 应 用 : 可 扩展 性 、 负 载 均衡 .平滑 性 。 
这 些 特性 可 以 很 好 地 适应 动态 性 下 的 哈 希 正确 性 和 一 致 性 。 对 于 第 三 个 问题 ,解决 的 方法 
是 将 整个 哈 希 表 均 匀 分 布 到 各 结 点 上 ,每 一 结 点 负责 它 在 哈 希 空间 标识 邻近 的 键 值 ,因而 需 
要 结构 化 的 拓扑 组 织 以 支持 哈 硕 表 的 分 布 及 路 由 。 故 分 布 式 哈 希 表 构造 是 一 种 结构 化 的 拓 
扑 构造 。 


2.3.2 基于 分 布 式 哈 希 表 的 P2P 系统 /DHT-P2P 系统 


DHT 技术 对 于 P2P 系统 设计 有 革命 性 的 影响 。 由 于 DHT 支持 具有 有 序 的 、 高 可 扩 
展 、 可 确定 性 查找 的 结构 化 拓扑 ,超越 了 之 前 的 随机 ad hoc 的 非 结构 拓扑 ,涌现 了 一 大 批 的 
新 型 P2P 系统 ,如 CANT , Chord"! , Tapestry?) , Pastry"! , Kademlia“! , Symphony"! , 
Viceroy") ,Koorde? , P-Grid^ % , o RAMEE RIA DHT 技术 作为 其 设计 基础 。 由 于 
结 点 和 数据 都 是 通过 分 布 式 哈 希 表 组 织 成 一 个 至 加 网 络 , 从 而 这 些 系 统 被 称 为 基于 DHT 
的 P2P 系统 ,一 些 文献 称 其 为 DHTs 或 DHT。 为 了 明确 和 简化 ,本 书 称 其 为 DHT-P2P 系 
统 , 在 不 至 于 混淆 情况 下 ,有 时 本 书 也 称 其 为 DHT 系统 。 

如 2.3. 1 节 所 述 ,DHT-P2P 系统 中 每 个 结 点 负责 一 定 范围 的 键 值 。 释 加 网 中 的 结 点 
既 能 够 存储 资源 本 身 ,也 可 能 仅 存储 资源 的 地 址 指针 ,取决 于 算法 需要 。DHT-P2P 系统 的 
路 由 是 通过 贪 禁 算 法 逐步 逼近 ,具有 在 Metric 空间 最 近 距 离 的 目标 结 点 ,这 个 Metric 空间 
取决 于 系统 的 拓扑 组 织 结构 。 


2.3.3 DHT-P2P 系统 特性 


DHT-P2P 系统 是 结构 化 系统 , 相 比 较 于 非 结 构 化 系统 , 它 提供 了 如 下 几 个 很 好 的 
特性 : 

CD 搜索 不 需要 依赖 于 Flooding 机 制 .因此 造成 较 小 的 网 络 流量 ,大 部 分 DHT-P2P 系 
统 中 每 个 查询 都 只 是 需要 O(logn) 个 消息 和 跳 数 。 

(2) 每 个 查找 请 求 都 能 以 很 高 的 概率 解析 ,并 且 所 需要 的 资源 消耗 是 可 预测 的 ,而 在 非 
结构 化 系统 里 如 果 所 请 求 的 文档 超越 了 查找 所 能 覆盖 的 范围 , 则 查询 失败 ,而 且 即 使 查找 成 
功 ,其 资源 消耗 也 不 可 预测 。 

(3) 搜索 结果 是 确定 性 的 。 一 方面 ,结构 化 拓扑 数据 只 要 存在 又 加 网 络 上 就 可 以 以 高 
概率 确定 性 查找 到 ,而 非 结构 化 受 TTL 限制 易 查 找 失 败 ; 另 一 方面 ,查找 结果 也 有 确定 性 ， 
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而 在 非 结构 化 系统 中 ,不 同 的 结 点 提交 同样 的 搜索 请 求 时 ,很 可 能 获得 的 结果 也 不 同 。 
由 于 DHT-P2P 系统 这 些 的 特性 ,使 得 它 特别 适合 Internet 分 布 应 用 ,引起 学 术 界 的 高 
度 重视 。 


2.4 DHT-P2P 系统 路 由 研究 进展 


路 由 算法 是 P2P 系统 的 核心 ,算法 的 优 劣 直接 关系 到 P2P 系统 的 核心 性 能 ,如 可 扩展 
性 ,可 靠 性 ,可 用 性 等 。Sylvia Ratnasamy" 引 等 人 在 总 结 现 有 的 DHT-P2P 路 由 算法 的 基础 
上 提出 了 结构 化 对 等 网 络 面临 的 “15 个 问题 "。 这 些 问题 体现 在 5 个 方面 : 状态 效率 折 中 、 
容错 性 .路 由 热点 物理 网 络 匹配 、. 异 构 性 。 事 实 上 , 它 引 导 了 对 于 DHT 路 由 的 研究 方向 ， 
研究 进展 分 述 如 下 。 


2.4.1 状态 效率 折 中 


Ratnasamy Sylvia ^59 fr 2002 年 的 IPTPS 会 议 上 介绍 到 ,当前 DHT 路 由 有 两 种 
模式 : 

CD 路 由 表 大 小 为 O(logn) 、 网 络 路 径 长 为 O(logn) ,如 Tapestry Pastry Chord: 

(2) 路 由 表 大 小 为 0(1) 网络 路 径 长 为 OGm/d), 如 CAN。 

这 两 种 模式 事实 上 反映 了 路 由 表 空间 与 路 由 的 路 径 长 度 的 一 种 互 为 消长 ,Ratnasamy 
Sylvi 等 称 之 为 路 由 状态 效率 折 中 (Routing State-Efficiency Tradeoff) 。 其 中 状态 指 路 由 表 
所 需要 维护 的 邻居 状态 数目 ,效率 指 路 由 路 径 长 度 所 代表 的 路 由 效率 。 一 个 重要 的 开放 性 
问题 是 : 能 否 实现 结合 以 上 两 种 模式 优点 的 状态 效率 存在 , 即 O(1) 的 邻居 数 和 O(logn) 的 
路 径 长 。 这 也 被 称 为 “常量 度 ” 路 由 问题 。 该 问题 引起 了 研究 领域 极 大 的 兴趣 ,吸引 了 科研 
工作 者 对 此 深入 地 研究 。 最 近 已 有 一 批 常 量度 路 由 算法 陆续 提出 ,这 些 算法 设计 利用 了 不 
同 拓扑 几何 的 特性 ,如 de Bruijn") , Comb 支持 常量 度 路 由 。 但 是 ,Jun Xu 等 [中 分 析 指 
出 ,拥塞 可 能 是 这 些 路 由 算法 的 突出 问题 。 此 外 ,不 同 的 研究 方法 也 涌现 ,如 传统 构造 默认 
路 由 表 的 分 布 一 致 性 (Uniform) ,然而 参考 文献 [68] 采 用 不 规则 路 由 表 , 根 据 结 点 的 能 力 来 
划分 路 由 责任 ,对 于 状态 效率 的 研究 来 说 ,是 一 种 较为 新 颖 的 方法 。 利 用 结 点 的 社会 链 关 
系 ”*"" 中 及 随机 路 由 算法 9 也 是 状态 效率 研究 的 新 方法 。 由 于 状态 效率 对 于 P2P 系统 的 性 
能 具有 本 质 性 影响 ,时 至 今日 ,状态 效率 折 中 的 研究 仍然 方兴未艾 。 


2.4.2 容错 性 


由 于 结 点 在 P2P 系统 内 自由 加 入 和 离开 .容错 性 就 显得 特别 重要 。 一 方面 ,系统 要 在 
面 对 路 由 结 点 失效 或 者 离开 时 ,能 够 仍然 保证 路 由 可 行 性 和 正确 性 ; 另 一 方面 ,在 大 规模 失 
败 时 ,网 络 可 能 由 于 结 点 间 完 全 失去 连接 ,形成 孤岛 现象 .这 种 孤岛 现象 也 要 处 理 好 。 对 于 
前 者 的 评估 Sylvia Ratnasamy 提出 静态 弹性 (Static Resilience) 概 念 。 静 态 弹 性 是 指 当 处 
于 路 由 过 程 中 的 结 点 失效 ,但 系统 并 不 做 路 由 修复 时 (如 选择 新 的 结 点 替换 相应 的 路 由 表 
项 ) ,路 由 的 可 行 性 及 效率 (这 个 问题 在 参考 文献 [71] 中 得 到 了 较 好 的 回答 )。 参 考 文献 [71] 
认为 静态 弹性 与 路 由 Geometry 密切 相关 和 环 结构 对 于 静态 弹性 有 效 , 此 外 还 区 分 路 由 表 
的 邻居 为 规则 和 持续 两 类 ,其 中 持续 邻居 对 于 静态 弹性 更 有 效 。 相 似 的 结论 出 现在 参考 文 
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献 [72] 中 ,不 过 ,此 时 是 将 规则 和 持续 这 两 类 对 应 为 长 链 和 短 链 , 并 通过 随机 过 程 理 论 分 析 
和 实验 得 出 短 链 对 于 静态 弹性 有 更 重要 的 影响 。 参 考 文献 [73] 建 立 了 考虑 有 一 半 系 统 内 结 
点 失效 时 系统 的 重建 过 程 的 分 析 模 型 ,参考 文献 [74] 利 用 SkipNet 的 特性 考虑 分 区 问题 ,但 
目前 如 何 有 效 处 理 大 规模 失败 的 问题 仍然 是 一 个 开放 性 问题 。 


2.4.3 路 由 热点 


路 由 热点 是 指 当 存 有 资源 的 结 点 受到 太 多 请 求 时 ,此 结 点 的 出 人 路 由 流量 太 大 ,引起 所 
谓 ” 热 点 ”问题 , 即 路 由 拥塞 。 此 时 , 结 点 由 于 负载 过 重 而 反应 不 过 来 。 路 由 热点 的 解决 方案 
一 方面 可 以 通过 有 效 地 复制 和 缓存 策略 呈 ' .以 分 流 对 于 热点 资源 的 请 求 , 另 一 方面 采用 
负载 均衡 技术 。 在 DHT 中 ,负载 均衡 可 采用 虚拟 服务 器 (Virtual Server) 的 方法 ,根据 结 点 
的 能 力 分 配 负载 ,如 Chord? 。 在 参考 文献 [76] 中 ,基于 Chord, 进 一 步 考虑 了 虚拟 服务 器 
根据 动态 负载 的 情况 进行 迁移 (Transfer) 的 技术 ,其 技术 要 点 是 重 载 结 点 将 一 些 虚 拟 服务 
器 迁移 到 轻 载 结 点 ,并 考虑 了 总 体 性 能 的 均衡 ,而 参考 文献 [77,78] 则 继续 对 于 减少 迁移 的 
开销 做 了 些 改进 和 相应 的 理论 分 析 。 参 考 文献 [79] 采 用 的 the Power of Two Choices 技术 
在 哈 希 发 布 文档 时 ,就 将 文档 索引 项 采用 多 个 哈 希 函数 进行 了 多 个 结 点 的 存储 ,并 在 查询 时 
随机 选取 一 个 存储 结 点 进行 定位 路 由 ,从 而 较 好 地 均衡 了 负载 。 


2.4.4 物理 网 络 匹配 


物理 网 络 匹配 指 的 是 和 至 加 网 络 应 尽 可 能 与 物理 网 络 相 匹配 以 减少 结 点 通信 开销 和 路 由 
延迟 。 目 前 的 研究 主要 是 从 如 下 两 个 互 为 补充 方向 进行 : 

1. 利用 Internet 的 层次 信息 (如 自治 系统 IP 前 级 ) 进 行 拓 扑 适应 构造 

这 是 一 种 直接 与 物理 网 络 匹配 的 方法 。 

eCAN" 5 借助 BGP 表 来 引导 路 由 ,使 得 结 点 通信 本 地 化 ,减少 通信 开销 和 路 由 延迟 。 
而 参考 文献 [82] 利 用 IP 前 级 使 得 路 由 充分 利用 Internet 层次 信息 ,并 模拟 路 由 层 的 最 短路 
径 算法 以 匹配 物理 网 络 。 参 考 文献 [83] 提 出 一 种 Sloppy 喻 希 技术 以 支持 邻近 路 由 。 参 考 
文献 L84] 则 是 根据 结 点 的 IP 时 延 将 释 加 拓扑 组 织 成 多 个 层次 ,路 由 根据 时 延 由 短 到 长 的 层 
次 进行 ,以 尽 可 能 减少 整体 通信 时 延 。 这 些 方式 与 物理 网 络 的 匹配 性 都 是 需要 在 设计 时 就 
考虑 好 ,主要 是 基于 稚 加 拓扑 构造 的 方法 。 

2. 采用 路 由 选择 技术 

这 是 一 种 间接 与 物理 网 络 匹 配 的 方法 ,DHT 路 由 选择 技术 有 如 下 三 种 [ss ， 

(1) 邻近 邻居 选择 (Proximity Neighbor Selection. PNS): 在 路 由 表 构 造 时 , 结 点 选择 
与 该 结 点 邻近 (如 时 延 较 短 、 物 理 位 置 靠近 ) 的 结 点 作为 邻居 。 这 种 优化 策略 能 使 路 由 跳 转 
充分 选择 结 点 的 物理 邻近 结 点 进行 ,从 而 使 得 路 由 间接 与 物理 网 络 匹配 。 该 技术 的 成 功 依 
赖 于 结 点 在 依 此 构造 路 由 表 时 能 够 不 影响 总 体 路 由 跳 数 的 自由 度 。 在 基于 前 级 的 协议 中 
(lil Tapestry 和 Pastry) ,路 由 表 的 上 层 允 许 更 自由 的 选择 ,而 下 层 的 选择 自由 度 呈 指数 下 
跌 。 因 此 ,第 一 跳 的 平均 延迟 非常 低 ,而 随 着 每 一 跳 指数 增加 ,最 后 一 跳 的 延迟 决定 着 整个 
查找 过 程 的 延迟 。 该 类 方法 有 好 的 延迟 伸展 负载 平衡 和 本 地 路 由 收敛 特性 cs] ,但 是 该 类 
方法 的 限制 不 支持 如 CAN 和 Chord 这 类 要 求 在 路 由 表 中 明确 指出 标识 空间 的 下 一 个 结 点 
标识 的 DHT 算法 。 
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(2) 邻近 路 由 选择 (Proximity Routing Selection. PRS): 在 路 由 时 ,选择 与 该 结 点 邻近 
的 邻居 作为 下 一 跳 。 这 种 优化 路 由 以 匹配 物理 网 络 的 构造 技术 是 基于 如 果 每 步 都 是 最 短 时 
延 ,那么 总 体 时 延 也 应 该 得 到 优化 的 原理 。 与 PNS 相反 , 它 是 在 路 由 过 程 中 进行 的 动态 选 
择 。 假 设 每 一 跳 都 有 个 结 点 可 供 选择 , 则 每 一 跳 的 平均 延迟 可 以 从 原来 的 网 络 中 任意 两 
个 结 点 延迟 的 平均 值 减少 到 网 络 中 任意 一 个 结 点 到 其 他 任意 & 个 结 点 延迟 最 小 值 的 平均 
值 ,所 获得 的 性 能 提高 同 e 的 大 小 成 正比 , 增 大 的 值 意味 着 每 个 结 点 路 由 表 的 增 大 ,从 而 
需要 更 多 的 资源 消耗 以 维持 链接 。 除 此 之 外 ,一 味 考虑 选择 延迟 最 低 的 结 点 转发 查询 也 可 
能 导致 路 由 逻辑 跳 的 数目 变 大 。 

(3) 邻近 标识 选择 (Proximity Identity Selection, PIR): 在 新 结 点 加 入 时 , 结 点 标识 的 
产生 与 结 点 所 在 的 物理 位 置 相关 。 它 的 原理 是 基于 如 果 标 识 与 物理 布置 相关 ,那么 在 以 标 
识 为 基础 的 琶 加 网 的 路 由 就 能 够 尽 可 能 接近 以 IP 为 基础 的 物理 网 的 路 由 。Landmark555 
技术 广泛 应 用 于 PIR。 其 方法 是 取 m 路 标 ,然后 每 个 加 入 的 结 点 通过 ping 这 m 路 标 得 到 
的 值 排列 成 xm 位 , 即 为 结 点 标识 。 由 于 此 标识 反映 了 与 m 路 标的 物理 位 置 关 系 , 因 此 ,将 标 
WAS WHEE TER., Brocade" 是 基于 PIR 的 路 由 技术 ,eCANr 中 也 采用 了 这 种 技 
术 。 参 考 文献 [88] 实 现 了 PIR 路 由 , 它 在 每 一 跳 获 得 了 IP 延迟 的 两 倍 或 者 更 少 的 性 能 。 
然而 ,该 方法 有 很 多 缺点 : 首先 , 它 破坏 了 标识 空间 的 均匀 分 布 ,在 琶 加 网 中 造成 了 严重 的 
负载 不 平衡 问题 ; 其 次 ,由 于 映射 算法 的 限制 ,该 方法 在 一 维 空间 中 (Chord、Tapestry 和 
Pastry) 工 作 效 果 较 差 ; 再 次 ,标识 空间 中 相 邻 的 结 点 由 于 物理 位 置 也 相 邻 ,容易 造成 并 发 
失败 ,而 由 于 在 Chord 和 Pastry 这 样 的 系统 中 结 点 在 邻居 中 复制 数据 ,因此 也 易 造 成 安全 
性 和 和 鲁 棒 性 隐患 。 

以 上 三 种 方法 中 ,PRS 是 最 轻 量 级 的 方法 ,但 是 性 能 受到 的 限制 , 升 高 k 值 同时 导致 
耸 加 拓扑 的 维护 耗费 更 大 。 参 考 文献 [71] 实 验 结果 表明 ,PNS 方法 的 性 能 优 于 PRS, 但 受 
限于 一 些 明确 下 一 跳 的 DHT 算 法 (如 Chord), PIS 具有 较 好 的 平均 每 跳 延 迟 ,但 是 该 种 方 
法 导致 严重 的 负载 不 平衡 并 需要 高 维 标 识 空 间 才 能 有 效 。 


2.4.5 Sit 


当前 结构 化 P2P A ciii Wi MAS dis M Hb (Bro Pr s x TE VER 7 v CRI Af a CE AE 
CPU) 是 一 致 分 布 的 。 消 息 在 和 至 加 网 路 由 时 并 不 考虑 参与 结 点 的 能 力 差 异 。 然 而 ,测量 研 
究 表明 P2P 系统 有 极 大 的 异 构 性 5 并 且 由 于 一 部 分 结 点 非常 有 限 的 能 力 瓶 颈 可 能 引起 路 
由 算法 失效 。 因 此 ,将 结 点 异 构 性 考虑 进去 。 利 用 异 构 性 可 以 分 配 更 多 的 能 力 给 有 高 网 络 
带宽 ,大 存储 容量 和 好 的 CPU 处 理 能 力 的 结 点 ,这 些 结 点 称 为 超级 结 点 。 参 考 文献 [90] 建 
立 了 一 个 超级 结 点 虚拟 层 ,并 将 本 地 结 点 组 织 成 一 个 以 超级 结 点 为 中 心 的 组 ,并 采用 两 阶段 
的 路 由 过 程 ,第 一 阶段 是 将 请 求 路 由 给 超级 结 点 层 ,第 二 阶段 时 再 将 请 求 路 由 给 超级 结 点 所 
在 组 的 目标 结 点 。 这 种 方式 可 以 避 开 低能 力 结 点 的 瓶颈 ,提高 通信 效率 ,降低 通信 延迟 。 参 
考 文献 [91] 通 过 异 构 结 点 形成 层次 化 DHT 路 由 以 得 到 与 参考 文献 [90] 相 似 的 效果 。 


2.5 DHT-P2P 系统 拓扑 研究 进展 


拓扑 对 于 PZP 系统 性 能 有 重要 的 影响 ,直接 与 路 由 及 查询 性 能 相关 。P2P 拓扑 应 该 能 
够 适应 动态 的 网 络 环境 的 变化 并 与 物理 网 络 有 更 紧密 的 结合 ,增加 P2P 系统 的 适用 范围 和 
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提高 P2P 系统 的 性 能 和 效率 。DHT-P2P 系统 提供 了 结构 化 网 络 拓扑 ,目前 的 研究 主要 集 
中 在 以 下 三 方面 : 

(1) 控制 拓扑 维护 开销 : 增强 DHT 拓扑 的 网 络 动态 适应 性 。 

(2) 层次 化 拓扑 : 克服 DHT 的 平坦 化 结构 ,加 入 现实 中 的 层次 特征 。 

(3) 混合 拓扑 : 结合 结构 化 与 非 结构 化 拓扑 的 两 种 拓扑 的 优点 。 

这 三 方面 的 研究 抓 住 了 DHT 技术 本 身 的 特点 ,以 更 好 地 提高 DHT 拓扑 的 适应 性 和 
效率 。 


2.5.1 控制 拓扑 维护 开销 


DHT-P2P 系统 由 于 将 结 点 和 文件 紧密 布置 在 一 个 结构 化 拓扑 中 ,从 而 敏感 于 结构 的 
动态 变化 。 为 了 保障 在 动态 网 络 环 境 下 的 正确 结构 和 路 由 正常 进行 ,维护 拓扑 的 开销 相对 
较 大 ,特别 是 极 动荡 时 可 能 超过 系统 的 控制 。 

结 点 不 断 加 入 和 离开 的 过 程 称 为 Churn, 它 对 于 系统 性 能 有 重要 的 影响 。Sean Rhea 
等 [中 研究 了 在 Churn 情况 下 性 能 的 影响 因子 ,并 通过 主动 失败 恢复 、 合 理 超时 设置 、 邻 近邻 
居 选 择 等 技术 较 好 地 控制 了 Churn。Bamboor 泪 基于 这 些 技术 较 好 处 理 了 Churn 的 一 个 
DHT-P2P 系统 。 参 考 文献 [94] 比 较 了 Churn 情况 下 不 同 的 DHT(Tapesty、Chord、Kelips、 
Kademlia) 的 性 能 ,得 出 在 同样 负载 下 ,如 果 参 数 调整 得 足够 好 ,它们 都 具有 相似 的 性 能 。 然 
而 ,参数 的 调整 在 不 同 的 环境 及 协议 下 也 是 不 同 的 ,要 具体 情况 具体 分 析 。 参 考 文献 [95] 建 
立 了 结 点 开销 模型 以 用 于 观察 系统 的 稳定 性 、 热 点 及 网 络 效率 。 参 考 文献 [96] 从 路 由 表 的 
构造 上 分 析 了 开销 减少 的 可 能 性 。 参 考 文献 [97] 分 析 了 真实 trace 下 的 拓扑 维护 开销 ,并 
通过 自 反馈 机 制 来 调整 性 能 ,减少 动态 性 对 于 系统 性 能 的 影响 。 参 考 文献 [98] 讨 论 了 拓扑 
维护 的 现实 性 和 意义 。 


2.5.2 层次 化 拓扑 


DHT 设计 面向 一 个 平坦 (Flat) 的 拓扑 。 它 的 优点 是 对 于 所 有 参与 结 点 有 全 局 一 致 的 
功能 分 布 ,并 且 没 有 单 点 故障 。 然 而 ,层次 性 的 缺乏 使 得 特定 系统 的 层次 信息 (如 目录 层次 
结构 .层次 缓存 等 ) 丢 失 , 且 管理 较为 困难 。 一 些 研究 者 提出 了 层次 化 拓扑 的 设计 思想 。 
Canon f£ SEF DHT 的 一 种 层次 化 拓扑 设计 ,不 仅 保持 原 有 DHT 的 状态 路 由 效率 ,而 且 
具有 以 下 五 点 特性 : 错误 隔离 ; @@ 用 于 多 播 的 有 效 缓存 和 有 效 带 宽 ; @@ 匹 配 物理 网 络 的 
拓扑 ; DEKLARE: @ 层 次 化 存 取 控制 。TerraDirn 中 提供 了 层次 名 空间 (如 DNS 或 
UNIX 文件 系统 名 ) 的 目录 查询 。 它 组 织 结 点 为 层次 树 结构 , 父 结 点 维护 它 的 子 结 点 的 信 
息 。 为 了 容错 和 减少 查询 延迟 ,缓存 和 复制 在 系统 中 大 量 使 用 。 参 考 文献 [101] 提 出 了 一 个 
通用 的 框架 用 于 PP 又 加 网 络 的 层次 组 织 。 聚 簇 是 实现 层次 化 的 常用 方式 。 参考 文 
献 [82] 根 据 网 络 IP 前 级 进行 分 层次 聚集 的 层次 化 DHT 设计 。 参 考 文献 [102] 中 的 观点 是 
当前 网 络 物理 拓扑 结构 是 层次 化 ,因而 设计 层次 化 DHT 以 更 好 地 匹配 物理 网 络 和 利用 本 
地 的 局 部 特性 。 


2.5.3 混合 拓扑 
混合 拓扑 是 新 兴 的 一 个 研究 点 。 结 构 化 和 非 结构 化 各 有 其 优 缺 点 ,混合 网 络 拓扑 综合 
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了 两 者 性 能 优点 ,减轻 了 其 性 能 缺点 ,是 一 种 有 益 的 探索 。Yapper" 中 有 一 个 与 Gnuetlla 相 
似 的 非 结 构 的 网 络 拓扑 ,但 是 引进 哈 希 来 存储 数据 键 。 每 结 点 zx 被 分 配 5 种 颜色 : Color) = 
Hash(IP(x)) mod 5。 每 个 结 点 维护 它 的 直接 邻居 (距离 结 点 为 一 常量 值 的 路 由 跳 数 c 的 
结 点 ) 信 息 。 资 源 存 储 在 颜色 与 资源 键 哈 希 值 (为 一 颜色 ) 匹 配 的 结 点 上 ,因而 查找 可 限定 在 
同 种 颜色 的 结 点 上 ,从 而 查询 性 能 得 到 较 大 改善 。Kelips" 中 在 DHT 基础 上 引入 集中 式 组 
TER, Hop n 结 点 通过 喻 希 聚 簇 O(sqrt(n)) 仿 射 组 。 每 个 组 内 有 一 超级 结 点 维护 组 内 所 
有 信息 并 由 别 的 组 进行 通信 。 每 个 结 点 的 空间 占用 是 OCsqrt G0) ,路 由 需要 O(1) 时 间 。 网 
络 更 新 消息 采用 Gossip 协议 "中 传播 。 不 过 ,在 超大 规模 的 P2P 系统 里 ,这 种 组 维护 开销 
可 能 过 大 。LOO SADIE IPTPS04 会 议 提 出 一 种 新 的 设计 思想 : 结构 化 适合 定位 查找 
稀罕 数据 项 (Rare Item) ,而 非 结构 化 适合 定位 查找 流行 数据 项 (Popular Item) ,因而 设计 混 
合 拓扑 模型 。 网 络 中 一 部 分 为 结构 化 DHT 构造 采用 DHT 方式 定位 索引 稀罕 数据 项 , 另 一 
部 分 为 非 结构 化 Gnutella 构造 采用 泛 洪 方式 定位 通用 数据 项 。LOO 等 的 实验 表明 此 种 混 
合 方式 使 得 查询 效率 和 可 扩展 性 都 得 到 了 较 好 的 提高 。 


2.6 DHT-P2P 系统 查询 研究 进展 


查询 是 P2P 系统 中 的 一 个 关键 问题 ,也 是 P2P 系统 最 广泛 的 应 用 。 参 考 文献 [107] 对 
于 P2P 查询 的 问题 做 了 一 个 总 结 , 不 过 目标 是 非 结构 化 系统 。 对 于 结构 化 系统 , 它 具 有 与 
非 结构 化 很 不 相同 的 问题 。 最 根本 的 原因 是 由 于 DHT 采用 哈 希 技术 仅 提供 精确 查询 匹 
配 ,使 得 DHT 查询 受到 极 大 的 约束 。DHT 查询 的 前 景 展望 见 参考 文献 [108] 。 

DHT 查询 的 研究 主要 从 以 下 三 个 方面 展开 ,它们 的 目的 是 增强 P2P 查询 能 力 ,从 而 扩 
展 P2P 系统 的 应 用 范围 。 

(OD 多 关键 字 查 询 。 

(2) 模糊 关键 字 查 询 。 

(3) 复杂 查询 。 


2.6.1 多 关键 字 查 询 


当前 基于 DHT 的 P2P 系统 为 了 能 够 支持 多 关键 字 的 数据 检索 ,一 般 首先 对 文档 做 索 
引 ,一般 采用 逆序 索引 (Inverted Index) 方 式 , 然 后 针对 每 个 关键 字 , 将 “关键 字 、 文 档 标识 ” 
插入 到 DHT 又 加 网 中 。 

当 进 行 多 关键 字 组 合 查 询 时 ,针对 每 个 关键 字 , 根 据 DHT. 算法 映射 到 存储 该 关键 字 的 
相应 结 点 ,在 该 结 点 上 查询 包含 该 关键 字 的 文档 列表 ,然后 在 结 点 之 间 顺 序 传送 文档 列表 并 
计算 交集 。 显 然 这 种 检索 机 制 需要 在 网 络 上 传输 大 量 的 中 间 文 档 列表 数据 ,产生 大 量 的 网 
络 带 宽 消 耗 , 当 前 有 许多 研究 集中 在 如 何 减 少 带宽 消耗 以 及 提高 检索 效率 上 。 在 减少 带宽 
消耗 方面 ,参考 文献 [109] 采 用 了 Bloom Filters? 机 制 ,如 图 2-2 所 示 。 例 如 ,进行 A 门 B 
组 合 查 询 , 设 关键 字 A 映射 到 结 点 A ,关键 字 B 映射 到 结 点 B。 查 询 请 求 首先 发 往 结 点 A 
检索 包含 关键 字 A 的 文档 集合 。 在 结 点 A 上 检索 到 包含 关键 字 A 的 文档 集合 ,然后 计算 
该 集合 的 Bloom Filter 并 将 结果 F(A) 发 往 结 点 B, 结 点 B 检索 本 地 得 到 包含 关键 字 B 的 
文档 列表 ,并 利用 F(A) 计算 出 满足 Bloom Filter 测试 的 B 文 档 集 , 记 为 F(A) 门 B, 该 结果 
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集 再 传递 回 给 结 点 A, 并 计算 和 A 文档 集 的 交集 ,将 结果 发 送 回 客户 端 。 


A Z (2) FA) 
12 34 
54 三 z 
Wi Gio 
(3) BN F(A) 山 
A. c. 
服务 器 SA 服务 器 Sa 


2 
ix p^ oa n 
(D 请 求 - 3)ANB 
m > 7 


客户 机 
图 2-2 使 用 Bloom Filter 计算 组 合 查询 AN B 


如 果 用 户 数 据 检索 的 要 求 允许 一 定 的 误差 ,在 上 述 过 程 中 , 结 点 B 可 以 直接 将 F(A) 门 
B 发送 给 查询 客户 端 ,这 可 能 会 包含 一 些 * 正 向 错误 ”( 即 多 包含 了 一 些 不 正确 的 结果 )， 
Bloom Filter 的 位 数 越 多 , 正 向 错误 率 越 低 ,但 消耗 的 带宽 越 高 。 

在 多 关键 字 查询 中 ,其 中 的 一 个 关键 问题 是 如 何 减 少 结果 传输 对 带宽 的 占用 。 如 前 面 
所 介绍 ,Bloom Filter 是 常用 的 技术 ,此 外 ,还 有 其 他 一 些 可 采用 的 技术 。 参 考 文献 [111] 利 
用 了 每 次 查询 后 的 结果 缓存 (Result-Caching) 技 术 来 避免 重复 查询 和 减轻 通信 流量 。 例 如 
针对 三 个 索引 aaja ,查询 a; Naj Na, 直接 从 索引 ai、aj a, 得 到 显然 比 利 用 先前 ai Na; 
的 查询 结果 缓存 再 与 as 的 交集 计算 得 到 所 花费 的 代价 大 得 多 。 参 考 文献 [112] 提 出 了 
View Tree 来 存储 和 查询 以 前 的 结果 缓存 。 此 View Tree 实质 是 一 个 Trie 结构 ,通过 此 能 
够 很 好 地 减少 多 关键 字 的 查询 开销 。 

以 下 这 些 技术 并 不 直接 相关 于 多 关键 字 查 询 , 但 是 其 思想 可 以 为 多 关键 字 查 询 所 借鉴 。 

参考 文献 [113] 提 出 部 分 查询 技术 以 及 相应 的 内 容 模式 。 其 思想 是 考虑 用 户 查 询 时 并 
不 需要 所 有 拷贝 ,而 是 需要 一 部 分 就 够 了 ,比如 查询 一 个 流行 歌曲 只 需要 联系 两 三 个 网 站 就 
够 了 ,而 并 不 需要 可 能 的 上 百 个 网 站 。 因 而 ,相对 于 传统 查询 返回 所 有 结果 集 , 部 分 查询 能 
够 有 助 开销 减少 和 查询 效率 的 提高 。 特 别 是 它 不 敏感 于 流行 key, 能 够 有 效 减轻 热点 问题 。 
参考 文献 [114] 提 出 了 轻 索 引 技术 ,其 思想 是 考虑 建立 索引 的 目的 是 为 了 有 效 进 行 查找 ,但 
并 不 是 所 有 的 内 容 都 要 索引 ,因而 仅 索引 那些 根据 反馈 计算 得 出 值得 索引 的 那些 内 容 , 从 而 
降低 系统 的 索引 维护 开销 。 部 分 查询 技术 和 轻 索 引 技术 均 能 够 有 助 于 多 关键 字 查询 中 的 开 
销 的 减少 ,并 有 望 提 高 查询 效率 。 


2.6.2 模糊 关键 字 查询 


为 使 基于 DHT 的 P2P 系统 能 支持 模糊 查询 , Harren 等 2"9 提出 了 一 种 采用 n-grams 
的 方法 解决 模糊 查询 问题 ,如 thoven 可 分 解 为 tho hov ove, ven 等 3-grams( 长 为 3 个 字母 
的 片段 ) 。 通 过 针对 不 同 的 值 z, 可 以 分 别 建立 索引 。 这 种 方法 可 以 支持 模糊 查询 ,但 是 它 
占用 存储 容量 .网络 带宽 ,以 及 处 理 开销 都 太 大 ,扩展 性 很 差 。 目 前 仍然 没有 很 好 的 方案 来 
解决 这 个 问题 ,因此 还 有 不 少 挑战 性 的 工作 需要 去 做 。 
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2.6.3 复杂 查询 


应 用 查询 应 不 仅 支 持 关 键 字 查询 ,还 应 支持 关系 数据 库 的 SQL 查询 (如 选择 
(Selection) 45% (Projection) 、 联 合 (Join) 、 聚 集 (Group-by/Aggregate) 等 ) 及 语义 支持 的 
IR 模型 查询 等 复杂 查询 。 

参考 文献 [108] 首 次 提出 了 DHT 上 SQL 查询 的 设计 思想 ,但 仅 实现 了 联合 (Join)。 
PIER' 当 实现 了 一 个 SQL 查询 子 集 ,但 是 在 使 用 中 经 常会 出 现 查 询 结果 分 布 不 均匀 、 大 量 
的 * 热 区 ”的 现象 。 作 为 SQL 初步 查询 ,范围 查询 是 目前 SQL 查询 的 热点 研究 。 参 考 文献 
[115] 基 于 二 维 CAN 提出 了 一 种 范围 查找 的 方法 , 它 利 用 了 CAN 的 空间 位 置信 息 来 存储 
查询 结果 集合 ,并 由 此 支持 后 续 的 子 范围 查询 。Gupta 56019 使 用 位 置 敏感 哈 希 (Locality- 
Sensitive Hashing,LSH)D23 来 支持 近似 (Approximate) 范 围 查 询 。 位 置 敏 感 哈 希 LSH 是 
指 哈 希 函数 集合 HE Vh € Hi P[ACA) -h(OD) ]=sim(A,B), Kf A AB 为 两 个 集合 ， 
sim(A,B) 代 表 此 两 个 集合 的 相似 度 。 它 们 用 LSH 代替 了 Chord 中 的 一 致 性 哈 希 ,从 而 使 
得 相似 的 数据 项 能 够 在 哈 希 空间 也 接近 。 查 询 一 些 数 据 项 将 产生 相似 于 被 请 求 项 的 结果 ， 
因而 支持 范围 查询 。 但 是 由 于 采用 了 不 同 的 哈 希 功能 代替 一 致 性 哈 希 ,系统 的 负载 均衡 受 
到 了 影响 。 

参考 文献 [118] 提 出 元 数据 搜索 层 (Meta Data Search Layer) 用 于 统一 数据 和 文件 的 描 
述 和 定义 。 事 实 上 ,这 种 建立 元 数据 信息 描述 的 手段 已 经 在 Web Service 和 服务 发 现 机 制 
中 得 到 较为 广泛 的 研究 和 应 用 。 元 数据 搜索 具有 比 简单 数据 搜索 更 丰富 的 语义 。 
SOMO 借助 于 元 数据 来 管理 网 络 资源 。Arturo Crespo 等 中 引入 了 路 由 索引 (Routing 
Indices) 的 概念 ,允许 邻居 结 点 传递 查询 请 求 到 更 可 能 回答 此 请 求 的 结 点 。 如 果 一 个 结 点 不 
能 够 回答 查询 , 它 传 递 此 查询 到 基于 本 地 路 由 索引 的 一 个 邻居 结 点 集 ,而 不 是 随机 选择 邻居 
结 点 或 者 泛 洪 此 请 求 给 所 有 邻居 结 点 。 借 助 于 路 由 索引 ,查询 性 能 得 到 较 好 的 提升 ,但 它 也 
需要 额外 的 存储 空间 开销 。 
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对 等 网 络 拓扑 及 优化 第 3 章 


3.1 对 等 网 络 的 拓扑 构造 


3.1.1 引言 


DHT-P2P 系统 具有 良好 的 特性 是 基于 它 的 结构 化 拓扑 。 然 而 ,由 于 将 
结 点 和 数据 文件 紧密 布置 在 一 个 结构 化 拓扑 中 ,DHT-P2P 系统 敏感 于 结构 
的 动态 变化 。DHT-P2P 系统 通过 每 个 结 点 维护 一 个 局 部 的 路 由 表 来 实现 全 
局 路 由 和 定位 ,通常 对 于 个 结 点 的 网 络 ,对 于 每 个 结 点 的 加 入 和 离开 ,都 需 
要 O(log*n) 的 消息 来 维护 正确 的 PZP 网 络 拓扑 结构 5] 。 当 网 络 动态 程序 加 
大 时 ,拓扑 维护 开销 上 升 , 从 而 在 一 定 程 度 上 限制 了 DHT-P2P 系统 的 可 扩展 
性 。 而 事实 上 ,对 于 overnet 上 的 实验 结果 四 表明 几乎 有 50% 的 结 点 的 会 话 
时 间 小 于 一 个 小 时 ,这 说 明 在 DHT-P2P 系统 中 不 得 不 在 拓扑 维护 上 增 大 
开销 。 从 这 一 点 上 而 言 ,DHT-P2P 系统 比 非 DHT-P2P 系统 在 拓扑 维护 受 
到 更 直接 的 挑战 。DHT-P2P 系统 面临 的 一 个 基本 问题 是 如 何 减 少 这 些 
开销 。 

回答 这 个 问题 的 根本 出 发 点 是 : 将 参与 DHT-P2P 系统 的 结 点 区 分 成 两 
类 ,一 类 结 点 具有 足够 稳定 性 , 称 为 稳定 结 点 , 另 一 类 结 点 并 不 是 很 稳定 , 具 
有 较 强 波动 性 , 称 为 自由 结 点 。 事 实 上 ,我 们 利用 的 是 结 点 的 会 话 异 构 特 
性 中。 基于 此 ,我 们 设计 了 会 话 异 构 拓扑 模型 (Session Heterogeneity 
Topology,SHT)。SHT 模型 是 基于 DHT 的 模型 重 构 , 将 DHT 的 构造 变 成 
由 稳定 结 点 组 成 ,从 而 降低 了 网 络 动态 对 DHT 系统 的 影响 ,有 力 控 制 了 
DHT 拓扑 的 维护 开销 。 


3.1.2 SHT 模型 


Stefan Saroiu 等 用 实验 方法 研究 了 Napster 和 Gnutella 中 的 结 点 会 话 
分 布 品 ,结果 如 图 3-1 和 图 3-2 所 示 。 很 明显 地 ,有 50% 的 结 点 的 会 话 时 间 小 
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于 一 个 小 时 ,这 说 明 在 P2P 结 点 间 存 在 很 大 的 会 话 时 间 差 异 。 
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图 3-1 是 Session CDF (Cumulative Distribution Function, 累积 分 配 函 数 ) 曲线 ， 
图 3-2 是 Session PDF (Probability Density Function ,概率 密度 函数 ) 曲 线 。 可 以 很 清楚 地 
观察 到 以 下 特点 : 

(1) 会 话 时 间 存在 极 大 的 差异 性 ,这 意味 着 对 等 结 点 并 不 是 真正 意义 上 的 对 等 。 

(2) 会 话 时 间 在 结 点 间 不 均匀 分 布 。 当 许多 结 点 的 会 话 时 间 非 常 短 时 , 仅 有 一 些 结 点 
的 会 话 时 间 很 长 ,似乎 趋向 于 较 高 的 动态 性 。 

这 个 观察 结果 可 以 解释 为 什么 结构 化 PP 系统 需要 很 大 的 维护 开销 。 许 多 会 话 时 间 
很 短 的 结 点 将 不 断 频 繁 地 加 入 ,离开 P2P 网 络 ,以 至 于 扰乱 了 网 络 拓扑 的 结构 ,快速 地 增加 
了 结构 化 P2P 拓扑 的 维护 开销 。 考 虑 到 这 个 事实 ,一 个 直觉 的 想法 就 是 剔除 这 些 结 点 参与 
DHT 拓扑 构造 。 因 此 ,我 们 利用 了 会 话 时 间 的 极 大 差异 性 来 构造 SHT 模型 ,让 稳定 的 结 
点 构造 起 DHT 环 (将 所 有 由 DHT 技术 构造 起 来 的 拓扑 如 Chord, Pastry, CAN 和 
Tapestry 归纳 为 环 空间 结构 , 称 为 DHT 环 ), 而 其 他 的 自由 结 点 将 在 DHT 环 以 外 。 这 就 
意味 着 动态 的 不 稳定 的 结 点 被 集成 篮 留 在 DHT 环 以 外 ,这 样 就 降低 了 DHT 环 的 动态 改变 
程度 。 由 于 DHT 环 由 这 些 稳定 的 结 点 组 成 ,DHT 环 的 维护 开销 就 能 被 大 大 降低 ,从 而 整 
个 拓扑 维护 开销 也 就 大 为 减少 。 在 这 里 , 结 点 的 稳定 性 是 由 在 线 会 话 时 间 来 评估 的 ,会 话 时 
间 最 长 的 结 点 将 被 选 到 DHT 环 上 去 。 可 能 在 选择 结 点 的 时 候 , 还 有 更 多 的 因素 如 CPU 处 
理 能 力 .带宽 等 ,会 被 考虑 权衡 ,然而 会 话 时间 仍 是 一 个 影响 维护 开销 的 主导 因素 。 因 而 ， 
我 们 将 这 些 因素 的 折 中 问题 留 给 未 来 的 工作 考虑 ,而 在 这 里 仅 关 注 会 话 时 间 这 一 支配 性 
因素 。 

DHT 环 上 的 结 点 称 为 父 结 点 ,而 环 外 以 环 上 一 个 父 结 点 为 中 心 的 结 点 称 为 子 结 点 。 
一 个 父 结 点 和 它 的 子 结 点 集 称 为 一 个 秘 。 对 于 一 个 含有 个 结 点 的 网 络 , 用 m 来 限制 每 个 
父 结 点 的 子 结 点 个 数 。 对 此 ,期 望 在 一 个 合理 的 m 值 之 后 ,可 以 采用 聚 簇 策略 挑选 出 全 局 
稳定 性 能 足够 的 结 点 来 成 为 父 结 点 ,以 形成 一 个 稳定 的 DHT 环 。 因 此 ,一 个 通用 的 SHT 
拓扑 结构 是 由 簇 集合 S= {Ci, Coe Coon Ci,…} 构 成 的 ,其 中 C; A AE. HF 
i€[1,nj。 对 于 VC:ES, 都 有 Ci 二 {fs51,s2,53，"… sic} B 了 是 父 结 点 ,si 是 子 结 点 ， 
i€E[1,m]。 所 有 的 父 结 点 组 成 了 一 个 DHT 环 , 有 父 结 点 集 D= (fis fas fass fin) iE 
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[1.n]. SHT 模型 核心 技术 就 是 要 从 能 中 选 出 一 个 稳定 的 结 点 到 DHT 环 上 去 作为 父 结 
点 。 所 以 每 个 父 结 点 都 将 维护 子 结 点 列表 工 ,其 中 包含 了 
所 有 子 结 点 的 注册 信息 ( 即 结 点 ID、IP、 会 话 时 间 )。 父 结 点 
是 从 工 中 挑选 出 来 的 ,并 通过 一 种 渐 近 方式 来 形成 稳定 的 
DHT f, 

图 3-3 描述 了 SHT 模型 的 拓扑 结构 ,在 该 图 中 ,DHT 
环 上 实心 小 环 代表 了 父 结 点 ,而 连接 在 这 些 父 结 点 上 的 方 
块 代表 着 子 结 点 。 


1. 结 点 加 入 图 3-3 SHT 模 型 的 拓扑 结构 

对 于 一 个 任意 的 结 点 a, 其 加 入 到 网 络 中 的 过 程 描述 
如 下 : 

CD 结 点 a 与 一 个 已 知 的 引导 结 点 TIntroducer) 联 系 。 然 后 通过 结 点 工 发 送 加 入 请 求 
以 把 自己 加 入 到 一 随机 簇 C 中 。 

(2) WIRE C 的 大 小 超过 mm ,那么 簇 C 就 分 裂 成 两 个 簇 ,并 根据 新 簇 选 出 新 的 父 结 点 。 
DMIR C 的 所 有 子 结 点 中 选 出 会 话 时 间 最 长 结 点 5 作为 新 簇 父 结 点 加 入 DHT 环 ,命名 此 
新 簇 名 为 C', 此 时 它 的 子 结 点 数 为 0, 并 从 簇 C 中 删除 结 点 5。@@ 从 簇 C 中 随机 移动 


[5-1 | 个 子 结 点 到 能 C. 


2. 结 点 离开 

在 SH T 模型 中 ,对 于 不 同类 型 的 结 点 离开 ,采用 不 同 的 处 理 办 法 。 当 一 个 子 结 点 离开 
的 时 候 , 发 送 一 个 通知 给 父 结 点 ,告知 更 新 了 的 子 结 点 列表 。 当 父 结 点 离开 的 时 候 , 从 子 结 
点 中 挑选 稳定 的 结 点 作为 一 个 新 的 父 结 点 ,然后 这 个 父 结 点 就 被 加 入 到 DHT 环 上 。 对 子 
结 点 列表 的 动态 维护 ,以 及 父 结 点 的 选择 过 程 将 在 下 面 描 述 。 

3. 渐 近 稳定 的 DHT 环 

尽管 结 点 的 加 入 和 离开 是 非常 简单 的 ,但 是 它 能 用 一 个 进化 的 方法 来 渐 近 形成 稳定 的 
DHT 环 。 这 里 说 的 进化 是 指 拓扑 结构 逐渐 朝 着 期 望 的 方向 改变 。 有 以 下 两 种 情况 会 从 簇 
中 选择 新 父 结 点 : 簇 的 大 小 超过 了 mm, 簇 中 父 结 点 的 异常 事件 (如 发 生 掉 电 事故 )。 每 次 选 
择 均 保证 父 结 点 为 簇 中 局 部 的 最 稳定 结 点 ,从 而 期 望 父 结 点 在 全 局 是 最 稳定 的 结 点 。 父 结 
点 的 选择 对 于 一 个 稳定 的 DHT 环 是 十 分 关键 的 ,起 决定 性 作用 。 

为 了 形成 一 个 稳定 的 DHT 环 需 回答 以 下 两 个 问题 : 

CD 怎样 使 得 父 结 点 的 选择 既 可 行 又 可 靠 ? 

(2) 这 些 父 结 点 是 否 能 够 使 得 DHT 环 达到 想 要 的 稳定 状态 ? 

首先 ,可 通过 维护 子 结 点 列表 来 解决 第 一 个 问题 。 对 于 一 个 簇 来 说 , 父 结 点 维护 着 可 能 
成 为 下 一 次 父 结 点 候选 者 的 子 结 点 有 序列 表 。 簇 中 一 个 子 结 点 存活 的 时 间 越 长 , 即 它 的 会 
话 时 间 越 长 , 它 就 越 有 可 能 被 选 为 父 结 点 ,在 列表 中 位 置 就 越 靠 前 。 而 且 , 为 了 应 付 一 些 如 
掉 电 、 断 网 等 异常 失效 情况 ,需要 将 这 个 子 结 点 列表 周期 性 地 发 送 给 簇 上 的 每 个 子 结 点 。 当 
一 个 父 结 点 失效 或 断 开 的 时 候 , 列 表 中 会 话 时 间 最 长 的 结 点 就 成 为 父 结 点 ,并 加 入 到 DHT 
环 上 。 通 过 这 种 方法 , 父 结 点 的 选择 就 将 是 可 行 又 可 靠 的 了 。 
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接 下 来 来 考虑 第 二 个 问题 。DHT 环 的 一 个 理想 的 稳定 状态 定义 如 下 : 

定义 3-1 4 node. session 为 结 点 的 会 话 时 间 , 令 U 为 所 有 子 结 点 的 集合 。 对 于 一 个 含 
An AREE LIES GbR m 的 网 络 来 说 ,如 果 它 满足 两 个 条 件 : 

OD D={fi, fess, fe} v=[n/(n+1)]3 

(2) VfED, VuEU,f. session=u. session. 
Bp A DHT 环 的 稳定 状态 。 

下 面 来 说 明 一 下 如 何 能 够 渐 近 满足 这 两 个 稳定 条 件 。 

因为 聚 簇 技术 采用 及 均匀 性 分 割 ,最 终 将 在 DHT 环 上 留 下 wv 个 父 结 点 。 因 此 , 它 满足 
条 件 (1)。 让 下 是 所 有 环 上 父 结 点 集 , 即 P= D— {fis footers fo) ,并 让 它们 对 应 的 簇 集 为 
C, 即 C—(Ci.Co ,…,C。}。 因 为 对 于 V f; € F A M E TER. fi. session 将 是 相应 簇 C,; 的 最 
大 值 。 似 乎 这 样 就 满足 了 条 件 (2) 了 ,但 事实 上 ,这 并 没有 满足 条 件 (2)。 因 为 这 时 的 fL. 
session 只 能 表明 它 在 局 部 即 本 簇 内 是 最 大 ,并 不 能 够 表明 它 在 全 局 即 所 有 子 结 点 集 是 最 
大 。 因 此 ,采用 了 一 个 随机 算法 来 持续 进行 调整 , 称 为 渐进 的 稳定 化 。 

函数 adjust(c ) 运行 在 每 个 父 结 点 (ci 即 为 父 结 点 所 在 代表 的 簇 ) ,并 以 一 定时 间 周 期 
调用 。 它 随机 检测 其 他 簇 ,每 次 检测 可 能 不 满足 条 件 (2) 的 簇 ,从 而 以 一 种 渐 近 方式 调整 
DHT 环 以 达到 条 件 (2) 的 要 求 ,其 中 c; € C. 

随机 调整 算法 的 伪 代 码 如 下 : 

adjust(c,){ 

1 randomly select a cluster c, where cE C c#c: 

2 select node t whose session is the maximum of the son node set inc 

3 if (t.session» c,.f.session) 

4 c= c- (t) + {c.f} // adjust cluster c 

5 ci = 七 // update the father of cluster ci with node t 

) 

上 面 有 标号 的 第 1 一 3 行 是 根据 当前 得 c; 中 的 父 结 点 ,随机 选择 网 络 中 另外 一 个 簇 c， 
并 判断 是 否 存在 簇 c 中 某 子 结 点 t 的 会 话 时 间 比 当前 簇 c; 的 父 结 点 会 话 时 间 更 长 。 如 果 存 在 
这 种 情况 ,那么 就 执行 有 标号 的 第 4 一 5 行 ,即将 簇 c 的 子 结 点 t 与 当前 簇 c; 的 父 结 点 交换 。 

4. 文档 发 布 和 搜索 

对 每 个 结 点 来 说 ,发 布 和 搜索 文档 是 非常 重要 的 。DHT 模型 提供 高 效率 的 文档 发 布 
和 搜索 ,这 是 以 在 一 定 程度 牺牲 其 拓扑 灵活 性 为 代价 的 。SHT 要 保留 DHT 的 优点 ,同时 
还 要 克服 它 的 缺点 ,所 以 SHT 使 用 稳定 的 DHT 环 来 存储 索引 元 数据 和 搜索 文档 。 任 意 一 
个 结 点 ,无 论 它 是 父 结 点 还 是 子 结 点 , 均 能 够 发 布 0 和 搜索 文档 ,但 是 文档 元 数据 (文档 索引 
数据 ) 的 存储 查询 和 路 由 必须 基于 DHT 环 ,这 样 才能 利用 DAT 拓扑 构造 的 优点 。 

对 于 一 个 父 结 点 , 它 位 于 DHT 环 上 ,所 以 它 的 发 布 和 搜索 文档 的 操作 跟 DHT 算法 一 
样 。 然 而 , 子 结 点 的 操作 则 需要 用 到 一 个 代理 结 点 ,也 就 是 它们 的 父 结 点 。 当 子 结 点 发 布 文 
档 时 ,发 布 请 求 将 被 发 送 给 它 的 父 结 点 , 父 结 点 在 DHT 环 定位 并 存储 发 布 文档 元 数据 。 子 
结 点 则 无 须知 道 元 数据 是 怎样 存储 的 ,存储 在 哪里 。 同 样 地 , 子 结 点 提交 查询 请 求 给 它 的 父 


QD 发布 文档 就 是 指 提供 文档 的 索引 元 数据 ,以 便 文档 可 被 搜索 。 
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结 点 ,然后 父 结 点 在 DHT 环 上 用 特定 的 DHT 算法 执行 查询 ,并 把 最 终 的 结果 传 回 给 它 。 

为 了 避免 无 效 的 元 数据 信息 存储 在 DHT 环 上 影响 到 搜索 效率 ,采用 了 软 状态 (Soft 
State) 更 新 技术 来 发 布 文档 。 文 档 的 根 结 点 通过 周期 性 地 发 布 该 文档 来 刷新 元 数据 信息 。 
存储 元 数据 信息 的 结 点 将 定期 删除 一 些 过 时 的 元 数据 。 

这 种 文档 发 布 和 搜索 基于 一 个 相对 稳定 的 DHT 环 , 因 而 效率 得 到 提高 ,数据 的 可 用 性 
也 将 得 到 大 大 改善 。 

5. 分 析 

FERK m HF SHT 模型 是 一 个 关键 参数 。 它 决定 性 地 影响 DHT 环 的 稳定 性 和 维 
护 开 销 的 大 小 。 下 面 将 分 析 m 是 怎样 影响 稳定 性 和 维护 开销 的 。 分 析 基 于 上 面 所 描述 的 
稳定 DHT 环 ,并 且 会 话 时 间 的 分 布 来 自 参考 文献 [3] 中 的 真实 跟踪 数据 (trace)。 以 下 所 指 
的 时 间 如 不 加 注 明 皆 指 会 话 时 间 。 我 们 考虑 的 是 一 种 均衡 性 网 络 , 结 点 以 泊 松 率 加 入 与 退 
出 系统 ,但 系统 内 结 点 总 数 保持 不 变 。 

定义 3-2 令 C 为 结 点 会 话 时 间 的 CDF, 令 P 忆 为 结 点 会 话 时 间 的 PDF, 令 本 为 时 间 。 
显然 可 以 得 到 


CG- AD — CO) 
At . 


定义 3-3 SGARHRARR. eR GR AGE m RA G 就 被 分 成 了 2 个子 集 :Goirae 
和 Gower ,其 中 Garie = Url £. session 之 tm «x EG} Gas = rx. session t, «x € G) , t, 是 分 割 
这 两 个 集合 的 会 话 时 间 点 。 

事实 上 ,观察 图 3-1, 可 以 知道 ,m 是 DHT 环 上 的 结 点 数 和 DHT. 环 外 的 结 点 数 的 比 
值 , 即 


P(t) = lim het (3-1) 
oreo 


m 


CG) " | m 23. 
ICED C(tn) mI (3-2) 


下 面 来 看 看 故障 率 和 m 之 间 的 关系 。 
定义 3-4 结 点 的 故障 率 是 指 在 At 时 间 内 结 点 动荡 (加 入 或 者 离开 ) 数 目 , 取 值 为 At 趋 
于 0。 结 点 在 时 间 + 的 故障 率 记 为 1(1),M 为 结 点 总 数 , 则 有 


1 MX CG@+At)—MxX CH) PD 
fe lim7y * Mx C@ ) CO 


通过 式 (3-2) 和 式 (3-3) ,采用 trace 数据 中 的 会 话 分 布 ,可 以 描绘 出 图 3-4。 图 3-400 
表明 f(z) 随 时 间 而 递减 ,图 3-4(b) 表 明 f(4,) 将 随 m 增 大 而 递减 。 事实 上 ,有 如 下 定理 3-1: 

定理 3-1 系统 内 的 结 点 故障 率 将 随 着 其 会 话 时间 增 长 严格 单调 递减 。 

WEBB. 

因为 


(3-3) 


c Pt) (v 
f@ = Co P(t) =C) 


POOCH — PMC _ POCA — P) 
Ct) CA) 


P'Q)«0, 0<¢C@ <1 
FOO 


f 


(3-4) 
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(a) 故障 率 和 会 话 时 间 的 关系 (b) 故障 率 和 wm 的 关系 


3-4 故障 率 


所 以 ,Fi) 是 上 的 严格 单调 递减 函数 , 即 结 点 故障 率 随 着 会 话 时 间 增 长 严格 单调 递减 。 
证 毕 。 

定义 3-5 系统 的 稳定 性 是 根据 系统 结 点 的 平均 故障 率 来 衡量 的 。 若 S 代表 平均 故障 
率 , 则 有 


了 -Í PU) : 
S M CX P(t) X fdt (GO dt (3-5) 
车 Sar DHT 环 的 稳定 性 , 则 有 
P PW " 
Sante = CO dt (3-6) 


S 或 Samle 越 小 ,说 明 故 障 率 越 低 ,从 而 表明 系统 稳定 性 更 高 。 

引 理 3-1 Sadi m 加 大 而 减 小 , 即 DHT 环 稳定 性 随 m 加 大 而 增强 。 

WEBB: 从 式 (3-2) 易 知 tn Ki Blim 值 增加 而 增长 (注意 C. 是 严格 单调 增 函 数 )。 因 为 
式 (3-6) 中 Sia FE DCBR 0, t] RA TVA Si HERES 如 的 增长 而 减少 。 也 就 是 说 ,mm 增长 
导致 Saue 减 少 。 证 毕 。 

定义 3-6 结 点 进出 率 尺 是 指 单 位 时 间 内 加 入 或 者 离开 网 络 的 平均 结 点 数 。 

定义 3-7 维护 开销 下 是 指 维护 县 加 网 络 结构 的 开销 。Fopnrt 为 DHT 模型 拓扑 维护 开 
销 ,Fsnt 为 SHT 模型 拓扑 维护 开销 。 

结 点 进出 率 也 是 系统 稳定 性 的 一 种 度量 。R 越 小 ,说 明 单 位 时 间 内 进出 网 络 的 结 点 数 
越 少 , 即 网 络 波动 性 小 ,也 就 是 系统 稳定 性 增强 。 

对 于 基于 DHT 模型 有 ?个 结 点 的 网 络 ,假定 结 点 的 进出 率 是 Ronr 。 在 采用 SHT 进行 
拓扑 进化 后 , 则 Rsar 实 际 分 成 两 部 分 : 一 部 分 是 DHT 环 上 的 结 点 进出 率 Rare , 另 一 部 分 是 
环 外 的 结 点 进出 率 Router o 

引 理 3-2 ”Rae 将 随 m 增 大 而 减 小 , 即 DHT 环 结 点 进出 率 随 m 增 大 而 减少 。 

证 明 : 

ib T, 代表 单位 时 间 ,由 定义 3-5 .定义 3-4 和 定义 3-6 可 推出 

R=SXT. (3-7) 
Bp 
Ran = Sare X T, (3-8) 
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Rowe = Som X Ty (3-9) 
由 引 理 3-1 可 知 ,Ssrae 将 随 m 增 大 而 减 小 , 即 Rwae 将 同样 随 m 增 大 而 减 小 , 即 DHT 环 
结 点 进出 率 随 m 增 大 而 减少 。 证 毕 。 
引 理 3-3 结 点 进出 率 在 SHT 模型 分 割 成 两 部 分 , 且 有 Ron = Rire Russ 
证 明 : 由 定义 3-3 可 知 G 二 Garae Gouer ,并 可 得 知 Sarae 实 际 是 Ca 平均 故障 率 的 期 望 ， 
Souer 实 际 是 Coue 平 均 故 障 率 的 期 望 。 因 此 有 
E(G) = E( Gane 十 Gu) = E(Gaa) + ECGouter) 
S = Saa Sue (3-10) 
R = Ranie + Router 
又 因为 
Roar = Rsut = R (3-11) 
所 以 
Ront = Reise + Router (3-12) 
也 就 是 说 DAT 模型 经 SHT 模型 进化 后 的 结 点 进出 率 在 DHT 环 内 外 分 割 ,总 和 仍然 
保持 不 变 。 证 毕 。 
FE 3-2 Jm, =max{m| Rara. On) — Ra (mn 十 1) 二 e,m 二 1,2,3,…) 后 ,维护 的 开销 
将 得 到 一 个 近似 的 最 小 值 ,其 中 e 是 平滑 阅 值 。 且 相 比 之 于 DHT 模型 ,维护 开销 的 减少 值 
H 近似 为 
H= Font — Fsur 
= Rout X T X (O(log’n) — O(m)) — Raa X T X OClog? [n/ On, 十 1)]) 


~ (Rout — Rare) X TX Olog i). 6n < n) (3-13) 
WEBB. DHT 和 SHT 两 模型 的 维护 开销 如 下 (其 中 了 是 运行 时 间 ): 
Four = Ronr X T X OClog?n) (3-14) 


Fsut = Router X T X OX) + Ra X T X {OCog?En/(m 4- D. D +OGm)} (3-15) 
由 引 理 3-3 及 式 (3-12) ,对 式 (3-15) 可 简化 为 


Fsar = Ront X T X OGn) + Rari X T X OClog [n/€n + DD (3-16) 
A 
T 
Fore Cm) = Ront X T X Olm) (3-17) 
Fa On) = Rare X T X OCog?[n/(m + 1)]) (3-18) 
则 
Fsur = Fouter On) + Farce Gn) (3-19) 


由 引 理 3-2 PAN, Rasa. BÉ m 增加 而 减 小 。 特 别 地 ,在 m 取 定 的 一 个 值 后 ,Rarae 将 急剧 

减 小 ,并 趋 于 平滑 ,这 与 会 话 分 布 相关 ( 见 图 3-4)。 令 e DERBI (E e 是 一 个 正 实数 ,使 其 
小 得 足够 反映 DHT 环 的 稳定 度 。 假 设 

m, = max{m | Ra Gn) — Ra On +1) « em = 1,2,3,.…} (3-20) 

HH m —m, 2 ES Rorae 一 个 近似 的 最 小 值 ,这 时 候 系统 的 维护 开销 Fsar 在 m, 值 时 达到 

近似 优化 。 首 先 ,因为 再 增 大 m, 对 于 环 稳定 性 增加 不 多 (e 值 相当 小 ), 由 式 (3-18) 可 知 ,此 

时 环 上 结 点 的 维护 开销 Farce (m) 达 到 近似 最 小 。 此 外 ,由 于 极端 异 构 性 ,m, 相对 仍然 会 

是 个 可 期 望 的 小 值 ,从 而 由 式 (3-17) 可 知 ,Fower Gn) FE m, 值 处 近似 最 小 。 因 此 ,由 式 (3-17) 
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可 得 Four fE m, 值 时 达到 近似 优化 值 。 
令 五 为 维护 开销 为 近似 最 小 时 的 减少 值 , 则 有 如 下 表达 式 : 
H= Font 一 Fsar 
= Rout X T X [O(log’n) — OGm) ] — Rari X T X Oog’ [n/(m, + 1) ]) 
= (Rout — Rare) X TX O(logn) | (m <n) (3-21) 
证 毕 。 
由 定理 3-2 可 知 ,维护 开销 得 到 了 较 大 的 减少 ,并 且 近 似 最 小 维护 开销 的 簇 大 小 m, 可 
以 通过 DHT 环 上 结 点 进出 率 Rue 的 测量 计算 得 到 。 式 (3-21) 表 明了 开销 减少 的 本 质 在 于 
将 结 点 的 进出 率 由 Ronr 控 制 到 一 个 稳定 环 的 进出 率 R airle o 


3.1.3 仿真 实验 


基于 3.1.2 节 的 描述 设计 ,实现 了 一 个 SHT 仿真 原型 。DHT 环 是 根据 Chord 协议 构造 
的 ,并 且 采 用 了 与 Chord 同样 的 机 制 (以 30s 为 稳定 间隔 时 间 ) ,因此 称 为 SH-Chord。 当 然 ,对 
DHT 环 的 构造 也 可 基于 CAN, Pastry, Tapestry 等 ,然而 ,这 并 不 改变 SHT 模型 的 根本 
效果 。 

下 面 介绍 的 实验 由 两 个 部 分 组 成 。 首 先 , 观 察 簇 的 大 小 冯 是 怎样 影响 DHT 环 的 稳定 
性 (以 结 点 进出 率 度量 ) ,为 设 定 拓扑 优化 提供 重要 的 参数 值 m: 其 次 ,观察 使 用 SHT 模型 
后 对 于 维护 开销 的 控制 及 数据 可 用 性 等 性 能 的 影响 情况 。 

1. DHT 环 稳定 性 和 簇 的 大 小 的 关系 

这 里 在 网 络 中 加 入 了 20 000 个 结 点 。 为 了 得 到 一 个 现实 的 效果 ,会 话 时 间 的 分 布 采 用 
真实 的 跟踪 数据 外。 为 了 观察 到 簇 的 大 小 是 怎样 影响 Raa 的 ,从 1 到 40 改变 簇 的 大 小 m。 
由 于 所 有 的 元 数据 信息 都 被 发 布 并 存储 到 DHT 环 上 ,搜索 也 是 在 DHT 环 内 完成 的 ,所 以 
DHT 环 的 稳定 性 体现 了 SHT 模型 的 稳定 性 。 以 环 的 结 点 进出 率 Rae 来 度量 DHT 环 的 
稳定 性 。 测 量 每 分 钟 环 上 结 点 的 进出 率 , 并 计算 出 平均 值 作 为 Rac。 实验 结果 如 图 3-5 
所 示 。 随 着 m 的 增加 ,Rae 将 首先 急剧 下 降 , 但 是 在 m 到 达 10 左右 之 后 ,就 开始 变 得 平 
滑 。 由 定理 3-2 可 知 ,m, 近似 为 10, 这 时 的 维护 开销 接近 最 小 值 。 代 替 这 种 人 工 观察 ,也 
可 以 由 初始 设 定 的 。 值 ,调整 m 值 ,测量 得 到 Raae ,通过 不 断 允 近 的 方法 同样 可 以 得 到 
m, (Ë. 

2. SHT 的 性 能 

为 了 更 好 地 观察 SHT 模型 对 于 维护 开销 的 控制 和 对 数据 可 用 性 的 影响 ,设计 的 实验 
基于 优化 的 情况 , 即 簇 大 小 参数 取 测 量 优化 值 。 实 验 设置 参数 如 下 : 结 点 会 话 时 间 分 布 采 
用 同样 的 跟踪 数据 , 簇 大 小 取 测量 值 m, 为 10,20 000 个 结 点 持续 以 每 秒 钟 一 个 的 速率 加 入 
到 网 络 中 ,为 了 观察 SHT 模型 是 怎样 影响 维护 开销 的 ,这 样 的 高 速率 是 我 们 想 要 的 动态 网 
络 环境 。 实 验 运行 24 小 时 , 且 在 运行 期 间 每 10 分 钟 , 系 统 性 能 参数 被 快照 一 次 。 

1) 维护 开销 

整个 系统 范围 内 的 每 分 钟 收 到 的 消息 数 来 评估 维护 开销 。 在 图 3-6 中 可 以 看 到 ,SH- 
Chord 的 维护 开销 大 约 是 每 分 钟 5000 条 消息 ,但 是 Chord 则 是 每 分 钟 20 万 条 消息 。 因 为 
系统 中 有 20 000 个 结 点 ,所 以 ,对 于 SH-Chord 是 平均 每 个 结 点 每 分 钟 0. 25 条 消息 ,而 对 于 


Chord 则 是 平均 每 个 结 点 每 分 钟 10 条 消息 。 这 样 ,使 用 了 SH T 模型 的 簇 技术 后 ,维护 开销 
被 降低 到 只 有 原先 Chord 中 的 2.5% 。 这 是 依据 定理 3-2, 当 簇 大 小 为 m, 时 ,DHT 环 将 会 
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很 稳定 ,因而 大 大 减少 了 维护 开销 ,使 维护 开销 得 到 有 力 控制 。 
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图 3-6 SH-Chord 和 Chord 之 间 的 维护 开销 的 比较 


2) 查询 失败 率 


图 3-7 显示 了 SH-Chord 和 Chord 相应 的 查询 失败 率 及 拟 合 曲线 ,其 中 点 线 是 拟 合 曲 
线 。 可 以 观察 到 查询 失败 率 随 时 间 上 下 波动 ,这 与 在 极度 动态 的 网 络 中 执行 的 查询 的 波动 
相 一 致 (每 秒 1 个 结 点 )。 从 拟 合 曲 线 中 可 以 看 到 ,SH-Chord 的 查询 失败 率 是 0. 005, 
Chord 是 0.04。SH-Chord 失败 率 比 Chord 小 了 一 个 数量 级 ,这 是 由 于 SHT-Chord 中 路 由 
查询 采用 了 渐 近 稳定 的 DAT 环 。 实 验 结果 表明 ,SHT 模型 比 DHT 模型 有 着 更 好 的 数据 


可 用 性 。 
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3-7 查询 失败 率 和 拟 合 线 


3.1.4 相关 工作 


P2P 网 络 的 高 度 的 动态 性 和 异 构 性 已 经 被 最 近 的 实验 观察 所 证 实 ®' 3。Ratnasamy 
等 加 在 IPTPS02 会 议论 文中 提出 ,DHT 路 由 方面 的 开放 性 问题 ,其 中 之 一 就 是 利用 P2P 系 
统 中 结 点 异 构 性 来 改善 它 的 性 能 。 当 前 研究 从 各 种 异 构 特性 出 发 改进 系统 的 性 能 ,如 利用 
带宽 四、 主机 中 地理 位 置 中 等 不 同 的 异 构 特性 。 区 别 与 这 些 研究 ,本 书 利用 的 会 话 异 构 , 从 
另 一 角度 挖掘 出 P2P 网 络 中 结 点 内 在 异 构 性 ,并 基于 此 改进 DHT 拓扑 。 

DHT 拓扑 维护 问题 在 参考 文献 [4] 中 做 了 分 析 。Ledlie 等 通过 Chord 实验 指出 ,为 了 
保证 实际 拓扑 的 有 效 ,对 等 网 络 的 参与 结 点 至 少 要 满足 以 下 两 个 条 件 之 一 : 四 所 有 结 点 都 
具有 足够 的 带宽 支持 每 秒 可 运行 稳定 化 过 程 多 次 ; 四 所 有 结 点 都 有 足够 长 的 会 话 时 间 。 文 
献 L3] 的 实验 观察 得 出 结 点 异 构 巨 大 的 差异 性 ,使 得 这 两 个 条 件 的 任何 一 个 都 不 可 满足 。 因 
而 ,DHT 拓扑 必须 充分 考虑 其 拓扑 维护 问题 。SHT 模型 能 够 考虑 结 点 间 的 异 构 差异 性 ,从 
而 挑选 出 满足 DD、@ 的 强 能 力 结 点 思路 加 入 DHT 拓扑 环 , 从 而 能 够 较 好 解决 这 个 问题 。 
Liben-Nowell 等 四 分 析 了 P2P 网 络 的 动态 特性 ,给 出 了 Chord 拓扑 维护 的 一 个 近似 分 析 。 
Ratul Mahajan 等 外 针对 DHT 拓扑 维护 问题 ,提出 了 一 种 控制 维护 开销 模型 ,其 要 点 是 通 
过 自 适应 网 络 动态 变化 调节 对 等 网 络 的 关键 参数 以 平缓 动态 影响 。 本 质 上 它 是 一 种 被 动 方 
式 , 忽 略 了 结 点 异 构 特 性 , 当 结 点 动态 增强 时 ,会 有 结 点 瓶颈 问题 而 导致 调节 失效 。 与 之 相 
反 ,SHT 模型 是 一 种 主动 控制 网 络 动态 的 模型 构造 , 它 能 够 主动 选择 出 稳定 结 点 作为 DHT 
环 来 并 控制 不 稳定 的 动态 结 点 ,从 而 保障 了 环 的 稳定 性 。 

SHT 模型 充分 利用 了 会 话 异 构 的 反馈 性 能 。 尽 管 我 们 的 分 析 和 实验 是 基于 参考 文献 
[3] 中 的 真实 跟踪 数据 的 ,这 是 发 现 的 最 早 的 有 关 P2P 系统 中 会 话 异 构 性 的 研究 ,但 是 我 们 
的 方法 实际 上 可 同样 适用 于 会 话 异 构 性 显著 的 一 大 类 PP 系统 。 此 外 ,我 们 也 必须 指出 ， 
SHT 模型 可 能 并 不 是 非常 有 效 于 会 话 异 构 并 不 明显 的 一 类 系统 。 但 是 ,参考 文献 [3] 发 表 
之 后 的 一 系列 实验 研究 ,如 参考 文献 [2,10], 同 样 显示 了 当前 正在 使 用 的 P2P 系统 所 具有 
的 强烈 异 构 特性 。 因 此 ,SHT 模型 有 着 它 现实 意义 上 的 重要 性 ,给 予 现实 P2P 系统 经 过 很 
小 的 修改 从 而 能 够 更 好 适应 动态 网 络 ,提高 系统 的 健壮 性 和 稳定 性 。 
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结构 化 DHT-P2P 系统 能 够 提供 高 效 、 可 靠 的 服务 ,有 着 巨大 的 潜在 应 用 前 景 。 然 而 ， 
现实 应 用 中 维护 DHT 拓扑 ,巨大 的 开销 是 不 可 避免 的 ,这 就 限制 了 它 的 应 用 ,尤其 是 在 高 
度 动态 的 环境 下 。 上 面 通过 P2P 网 络 中 的 会 话 异 构 性 ,提出 了 一 个 创新 的 SHT 模型 来 控 
制 维护 开销 。SHT 模型 使 用 了 一 个 简单 但 是 有 效 的 簇 技术 。 主 要 的 技术 优点 有 : 

CD 得 的 管理 方式 是 自然 而 演化 的 ,管理 开销 很 小 。 由 于 它 不 依赖 于 任何 附加 的 前 提 
条 件 , 所 以 它 可 以 直接 应 用 于 现 有 的 DHT 算法 的 改进 。 

(2) 利用 了 网 络 异 构 特 性 ,即使 簇 的 大 小 很 小 , 它 也 能 得 到 一 个 近似 理想 的 效果 ,从 而 
对 簇 的 中 心 结 点 要 求 较 低 , 具 有 良好 的 现实 适用 性 。 

仿真 结果 表明 维护 开销 可 以 被 极 大 地 减少 ,而 查询 失败 率 也 很 大 程度 减 小 。 因 此 ,采用 
SHT 模型 在 控制 拓扑 维护 开销 的 同时 ,进一步 提高 了 DHT-P2P 系统 的 稳定 性 和 数据 可 
用 性 。 


3.2 对 等 网 络 的 路 由 优化 


3.2.1 引言 


路 由 是 P2P 系统 的 基础 ,提高 路 由 性 能 是 P2P 系统 的 一 个 极 关键 问题 ,因而 非常 受到 
重视 。 现 在 正在 使 用 的 DHT-P2P 系统 ,诸如 CAN. Chord, Tapestry, Pastry . Bf Hi LE hE% A 
它们 的 优点 和 局 限 性 。CAN 的 路 由 效率 相对 比较 糟糕 ,特别 是 在 低 维 的 情况 下 。 但 它 能 使 
用 低 度 的 路 由 表 来 保持 相对 较 低 的 维护 开销 。Chord、Tapestry、Pastry 有 着 较 优 的 路 由 效 
率 , 却 不 得 不 忍受 较 高 的 维护 开销 。 在 负载 较 重 的 动态 环境 下 , 它 甚 至 导致 路 由 颠 繁 
问题 9。 

下 面 将 研究 DHT 路 由 的 一 种 改进 策略 ,并 由 此 展示 DHT-P2P 系统 中 以 较 低 的 维护 开 
销 实现 有 效 的 资源 定位 的 可 行 途径 。 研 究 工 作 是 以 CAN 为 基础 ,但 略 加 变换 后 同样 适用 
于 其 他 的 DHT 路 由 算法 。 本 节 的 主要 创新 是 在 结构 化 路 由 层 上 构造 了 小 世界 模式 ,并 由 
此 改进 路 由 性 能 。 

这 里 的 工作 主要 受 Kleinberg 最 近 研 究 成 果 的 启发 5 。Kleinberg 提出 ,如 果 将 nn 个 结 
点 放 和 一 个 二 维 网 格 中 并 且 每 个 结 点 都 有 一 些 短 链 和 仅 一 条 长 链 ,采用 贪 焚 路 由 能 够 以 平 
JY O(log*n) 跳 在 任何 一 对 结 点 间 传 送 消息 。Kleinberg 的 理论 对 建立 和 改进 P2P 系统 非常 
有 用 。 目 前 已 有 一 系列 Kleinberg 式 的 网 络 构 造 见 参 考 文献 [13,14]。 在 CAN 中 构建 小 世 
界 是 一 个 非常 直觉 的 想法 。 因 为 CAN 有 着 和 Kleinberg 模型 相似 的 拓扑 结构 。 然 而 ， 
Kleinberg 模型 是 一 个 静态 模型 , 它 使 用 所 有 结 点 的 全 局 信息 来 构建 小 世界 现象 。 反 过 来 ， 
P2P 系统 中 结 点 的 加 入 和 离开 是 自由 的 ,并 且 每 个 结 点 只 拥有 整个 系统 的 一 小 部 分 信息 。 
例如 ,CAN 结 点 是 自由 地 加 入 和 离开 的 ,并 且 每 个 结 点 只 知道 它 的 2d 个 邻居 结 点 。 因 此 ， 
尝试 概率 缓存 结 点 代替 Kleinberg 模型 中 的 静态 结构 来 模型 小 世界 现象 。 这 种 方法 的 潜 
在 收益 是 能 够 以 一 种 极 低廉 的 代价 来 改进 路 由 性 能 。 因 为 概率 缓存 技术 在 改进 CAN 的 
设计 中 非常 重要 ,所 以 我 们 将 此 改进 的 CAN 命名 为 PCCAN (Probabilistic Cache-based 
CAN). 
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3.2.2 小 世界 模型 


小 世界 模型 即 大 多 数 人 都 被 许多 条 由 熟人 构成 的 短 链 连 接着 的 理论 ,是 由 Stanley 
Milgram"! fr 20 世纪 60 年 代 作 为 社会 学 问题 首次 提出 的 。 可 以 用 Milgram 实验 中 一 个 典 
型 的 例子 来 具体 描述 一 下 社会 学 中 的 小 世界 现象 。 

大 量 的 实验 表明 ,一 条 成 功 链 的 平均 中 间 步 数 是 在 5 步 到 6 步 之 间 , 因 而 它 也 被 称 为 “6 
度 分 离 ” 现 象 。 在 通信 网络 中 ,如 果 网 络 中 的 任意 两 个 结 点 都 能 以 短 跳 距 相连 , 即 可 以 通过 少 
量 的 链 路 往返 在 网 络 中 定位 存储 于 任何 随机 结 点 中 的 信息 ,这 个 网 络 就 被 认为 展示 了 小 世界 现 
象 。 小 世界 现象 是 大 量 网 络 在 自然 和 技术 上 所 呈现 的 一 个 特征 ,也 包括 现今 的 P2P 网 络 59 。 

模拟 小 世界 现象 的 小 世界 模型 经 过 了 三 次 发 展 历程 。 最 早 的 一 次 是 Pool 和 Kochen 
模型 2 的 建立 。 在 这 个 模型 中 每 个 结 点 都 与 少数 的 结 点 相连 ,这 些 结 点 一 律 是 从 整个 结 点 
集合 中 随机 选取 的 。 它 是 基于 随机 网 络 的 网 络 直径 较 低 这 一 原理 。 然 而 , 它 无 法 做 到 使 结 
点 真正 的 邻居 成 为 它们 的 邻居 。 为 了 解决 这 个 问题 , Watts 
和 Strogatz 提出 了 一 个 新 的 模型 中 ,如 图 3-8 所 示 。 在 
Watts 和 Strogatz 模型 中 ,网 络 的 边缘 被 划分 为 两 种 连接 : 
本 地 链接 和 长 链 。 对 网 络 中 的 每 个 结 点 ,它们 有 小 部 分 最 
近 的 邻居 作为 本 地 短 链 接 同 时 还 有 从 结 点 集合 中 随机 选 出 
的 长 链 。 这 种 方法 改进 了 Pool 和 Kochen 模型 ,使 得 网 络 
直径 较 低 并 且 结 点 能 够 维持 它 的 真正 本 地 邻居 。 但 是 ， 
Watts 和 Strogatz 模型 并 不 能 保证 期 望 的 短路 径 长 度 。 最 
近 , 这 个 问题 被 Kleinberg 的 工作 5 所 解决 。 图 3-8 Watts 和 Strogatz 模型 09] 

Kleinberg 普遍 化 了 一 类 小 世界 网 络 模型 。 这 个 模型 
提出 结 点 S 应 以 L 一 r 的 概率 选取 长 链 耳 ,其 中 工 = I ST || 94& sd T Wick ng ens 
顿 距离 ,r 是 底层 拓扑 的 维度 。Kleinberg 将 长 链 的 分 布 称 为 the Inverse r^-Power Distribution, 
它 给 出 了 甚至 在 仅 有 一 条 长 链 的 情况 下 ,nXn 个 结 点 的 二 维 网 格 中 路 径 长 度 具 有 上 限 
O(log*n)。 它 也 合理 地 解释 了 在 Watts 和 Strogatz 模型 中 为 何 无 法 保证 期 望 的 短路 径 长 度 : 
随机 选取 长 链 的 概率 独立 于 结 点 在 底层 拓扑 中 的 位 置 。Kleinberg 模型 如 3-9 所 示 。 


98r 2-a3 Q-ay(a-1) 
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图 3-9 Kleinberg MAIO) 


D m-n 上 定义 为 两 结 点 my 和 nz 间 的 曼哈顿 距离 。 对 于 d 维 网 格 空间 的 X、Y 两 点 间 的 曼哈顿 距离 是 
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3.2.3 PCCAN 


下 面 将 介绍 PCCAN 的 拓扑 模型 及 其 小 世界 网 络 构造 。PCCAN 在 拓扑 上 与 CAN JH 
似 ,要 特别 关注 的 是 长 链 的 引入 。 

1. 拓扑 模型 

PCCAN 系统 模型 是 在 CAN 基础 上 提出 来 的 改进 模型 ,所 以 它 的 拓扑 结构 类 似 于 
CAN, 首先 , PCCAN 在 d 维 超 环 空间 配置 端 结 点 ,d 是 正 整 数 表示 拓扑 结构 的 维度 。 
PCCAN 使 用 DHT 模式 且 整 个 PCCAN 空间 被 系统 结 点 所 划分 。 每 个 对 象 被 分 配 了 一 个 
选 自 于 键 空间 M 的 键 值 , 键 空间 是 通过 将 d 维 超 环 空间 映射 为 笛 卡 儿 坐 标 空间 形成 的 。 假 
设 结 点 空间 N 中 有 个 结 点 且 有 NCM。 每 个 结 点 存储 对 应 一 定 比例 键 空 间 对 象 并 且 使 
用 一 张 路 由 表 将 某 一 个 不 属于 结 点 键 空间 的 对 象 请 求 传递 到 合适 的 下 一 跳 结 点 。 

PCCAN 的 路 由 表 包 括 两 部 分 : 本 地 短 链 和 缓存 的 长 链 。 首 先 只 讨论 在 二 维 网 格 中 分 
布 的 结 点 缓存 一 条 长 链 的 情况 ,然后 将 其 扩展 到 拓扑 结构 的 维度 dd > 2 及 缓存 多 条 长 链 的 
情况 。PCCAN 使 用 同 CAN 的 贪 禁 路 由 算法 将 查询 消息 传 表 3-1 结 点 n 的 路 由 表 
递 到 最 接近 于 查询 ID 值 的 结 点 。 

图 3-10 是 一 个 二 维 的 PCCAN 系统 拓扑 结构 图 ,在 图 中 
12 个 结 点 分 布 在 8X8 的 网 格 中 ,其 中 结 点 n 的 路 由 表 显 示 oee Oe 
在 图 中 。 这 里 以 表格 的 形式 罗列 如 表 3-1 所 示 。 


本 地 短 链 缓存 长 链 


. HA 

© wR 

m ART 
Oe 结 点 缓存 的 对 象 
一 一 本 地 链 

一 缓存 长 链 
一 一 路 由 


图 3-10 二 维 PCCAN 系统 拓扑 结构 


除 此 之 外 ,每 个 结 点 存储 的 对 象 也 在 图 3-10 中 表示 出 来 。 下 面 举例 说 明 缓存 长 链 对 查 
询 消息 路 由 可 能 产生 的 影响 。 假 设 结 点 mm 要 查询 对 象 fu. fu 被 结 点 mw 所 保存 ,在 没有 组 
存 长 链 的 情况 下 ,mw 根据 自己 在 路 由 表 中 存储 的 有 关 邻 居 区 域 信息 ,以 及 查询 消息 中 目标 
结 点 的 区 域 信息 ,通过 距离 计算 得 出 与 结 点 ms 距离 最 近 的 邻居 结 点 是 结 点 n+。 依据 贪 禁 
路 由 算法 , 结 点 n 将 消息 传递 给 了 结 点 ns ER ns 收 到 消息 后 再 以 同样 的 方式 将 消息 传递 
给 结 点 ns ,最 终结 点 ns 将 消息 传递 给 目标 结 点 no ,查询 完成 。 在 这 种 情况 下 ,查询 消息 经 
过 了 3 跳 。 现 在 考虑 结 点 mm 加 入 了 缓存 长 链 的 情况 , 结 点 n 可 以 借助 长 链 快捷 到 结 点 
za2，* 并 将 消息 传递 给 它 , 查 询 在 经 过 1 跳 的 情况 下 完成 。 对 比 之 下 ,在 结 点 缓存 了 长 链 之 
后 ,查询 消息 经 过 的 路 径 跳 数 会 在 某 些 情况 下 减少 ( 当 缓 存 长 链 与 目标 结 点 是 同方 向 时 ) 。 
但 是 随机 缓存 长 链 不 能 够 使 系统 路 由 整体 得 到 优化 ,因为 它 不 能 够 提供 给 系统 与 其 拓扑 相 
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关 的 路 由 线索 (Routing Clue)?! 。 因 此 ,要 使 得 系统 路 由 整体 性 能 得 到 优化 ,需要 使 得 系统 
的 缓存 长 链 有 小 世界 的 分 布 特性 。 

2. 小 世界 网 络 构造 

PCCAN 系统 的 小 世界 网 络 是 利用 结 点 的 缓存 长 链 ,采用 基于 蠕虫 路 由 的 概率 置换 策 
略 而 构造 的 。 

下 面 介绍 缓存 置换 过 程 。 系 统 运 行 时 , 某 结 点 S 应 答 来 自 结 点 了 的 询问 请 求 。 假 设 结 点 
S 已 经 将 结 点 K 作为 缓存 长 链 (K 可 能 是 缓存 长 链 的 初始 值 ,也 可 能 是 缓存 长 链 经 过 多 次 置 
换 后 的 值 )。 在 应 答 来 自 于 工 的 请 求 时 , 它 将 以 P= S—K ||d / (|| S—K ||d + || S—T lla) 
的 概率 将 K 置换 为 工 ,否则 它 将 继续 保持 这 个 值 。 这 种 置换 采用 的 是 一 种 概率 置换 策略 。 
在 路 由 过 程 中 ,转发 结 点 总 是 用 发 起 查询 的 结 点 执行 概率 置换 , 即 概率 公式 中 的 了 总 是 查 
询 消 息 的 发 起 结 点 。 由 于 概率 缓存 置换 的 过 程 是 附加 于 查询 消息 的 路 由 过 程 中 的 ,也 就 是 
说 凡是 查询 消息 途径 的 结 点 都 要 发 生 这 种 概率 缓存 置换 的 过 程 。 这 种 方式 像 一 个 蠕虫 式 的 
路 由 过 程 ,我们 称 之 为 蠕虫 路 由 机 制 中 的 概率 缓存 置换 策略 。 

图 3-11 为 PCCAN 采用 蠕虫 路 由 的 缓存 置换 机 制 的 示意 图 。 结 点 nm 查询 户 ,缓存 置 
换 沿 查询 消息 的 转发 路 由 被 触发 。PCCAN 系统 在 查询 消息 的 路 由 过 程 中 以 概率 户 置换 组 
存 长 链 , 所 以 结 点 mw、 结 点 n 、 结 点 nu AIGA mm 在 传递 此 查询 消息 的 过 程 中 ,都 会 以 一 定 
的 概率 缓存 查询 消息 的 发 起 结 点 m 。 相 关 结 点 路 由 表 的 某 种 可 能 的 变化 (因为 受 概率 的 影 
响 ) 情 况 如 表 3-2 所 示 。 


一 一 一 路 由 消息 路 径 


© 缓存 置换 点 


3-11 PCCAN 基于 蠕虫 路 由 的 缓存 置换 


表 3-2 结 点 路 由 表 的 变化 情况 


结 点 本 地 短 链 缓存 长 链 初 值 置换 后 缓存 长 链 
n Nz \N3 „s Ds ns m 
ne 4 x75 、7210 ns ns 
ni ne Tho V Miz ng m 
ma My vnin n n 


在 一 次 查询 消息 的 路 由 过 程 中 ,查询 消息 的 发 起 结 点 可 能 被 沿 查询 路 径 的 多 个 结 点 
置换 进 它们 的 缓存 长 链 中 ,并 且 根 据 概率 置换 公式 , 离 发 起 结 点 越 近 的 结 点 的 置换 概率 
越 高 。 
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由 于 结 点 缓存 长 链 的 置换 过 程 是 伴随 于 查询 消息 的 路 由 过 程 , 所 以 静态 置换 过 程 附加 
于 结 点 的 额外 开销 近似 为 零 。 此 外 ,采用 蠕虫 路 由 机 制 中 的 概率 置换 策略 可 以 让 置换 沿 查 
询 路 径 进 行 ,从 而 可 以 使 置换 过 程 更 为 均匀 、 迅 速 , 并 有 效 减轻 可 能 的 “ 热 键 问 题 。 

直觉 上 ,小 世界 网 络 可 能 由 此 构成 。 因 为 这 种 概率 置换 与 结 点 在 底层 拓扑 的 位 置 相 关 ， 
并 且 更 趋向 保留 短 距离 的 结 点 ,这 正 是 Kleinberg 模型 的 本 质 体现 。 下 面 将 通过 分 析 来 证 
明 这 种 直觉 的 正确 性 。 


3.2.4 分 析 


以 下 分 析 基 于 的 PCCAN 的 模型 参数 是 : 结 点 空间 为 N, 结 点 总 数 为 n= 二 ,其 中 4 为 
PCCAN 的 维度 。 

1. 静态 情况 

假定 系统 内 结 点 总 数 不 变 ,没有 结 点 加 入 或 者 离开 ,采用 概率 缓存 长 链 , 有 如 下 定理 
成 立 。 

定理 3-3 PCCAN 系统 中 重复 执行 概率 缓存 置换 过 程 ,任意 一 结 点 SCsE N) 将 在 有 限 
HAVA || s—e l| 成 比例 的 概率 缓存 结 点 1(1E€ N 站 :天 >)。 

WEBB. 假设 系统 中 有 个 结 点 。 对 任意 的 结 点 s(sE€ N) 和 结 点 ENN tA) ,讨论 
缓存 t 的 概率 。 

定义 一 条 Markov 链 如 下 : 

将 每 一 种 距离 设 为 一 个 状态 , 则 结 点 * 的 状态 空间 为 = (di ,dz sedis sdn sd; 是 其 
AB s 的 距离 } 。 

假设 结 点 * 以 距离 + = || s—e || 缓存 结 点 上 ,就 说 Markov 链 是 在 状态 x 中 。 对 应 
Markov 链 中 一 步 转移 是 指 具 有 距离 y 的 新 样本 ( 当 一 条 查询 路 由 消息 的 到 达 此 结 点 时 ) 被 
接收 ,然后 链 将 以 ze/(zs 十 交 ) 的 概率 转移 到 状态 >, 否则 它 将 停留 在 原来 的 状态 。 这 个 过 
程 清楚 地 定义 了 一 条 含 m 个 状态 的 Markov 链 。 图 3-12 PRAA s 只 有 三 个 状态 的 
Markov 链 示例 。 三 个 状态 表明 一 些 结 点 到 * 有 三 种 不 同 的 距离 。 作 为 一 种 简化 的 说 明 ， 
图 3-12 所 示 的 例子 只 显示 了 三 个 结 点 tz ,ts ,它们 到 正好 有 三 种 不 同 的 距离 。 


x= ||s—A] 


(a) 结 点 s 有 三 个 邻居 结 点 (b) 状态 转移 图 
图 3-12 对 于 结 点 s 的 仅 有 三 个 状态 的 简化 的 Markov 链 模 型 


由 马 氏 链 定理 可 知 ,对 于 任何 确定 数量 的 状态 m, 并 且 其 转移 矩阵 元 素 为 正 数 , 存 在 一 
个 稳定 且 唯 一 的 概率 分 布 ( 稳 态 概率 )"”。 

设 任意 一 个 状态 r 的 稳 态 概 率 是 p,。 考 虑 稳定 情况 下 状态 z 的 转 入 和 转 出 过 程 ,注意 
到 p. 是 一 个 稳定 的 值 ,这 是 非常 重要 的 ,只 有 这 样 状态 的 转 入 和 转 出 才能 达到 平衡 。 这 种 
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平衡 说 明 从 状态 工 到 状态 i(i€ S,i 隆 zx) 的 所 有 转 出 概率 等 于 从 状态 j(j€ES,j 隆 7) 到 状态 zx 
的 所 有 转 和 概率。 图 3-13 显示 了 状态 的 转 和 信和 转 出 的 平衡 。 


状态 <> 


状态 <w> 


(xsi) 一 一 流入 
RE ccr 一 - 流出 
quse 


具 状 态 的 结 点 组 
具 状 态 的 结 点 数 


3-13 ” 转 人 与 转 出 的 状态 平衡 图 


根据 图 3-13, 列 出 方程 (方程 左边 表示 转 出 ,方程 右边 表示 转 和 人 ) : 


„d od 
nbs 2 aa = Lindi a (3-22) 
i€S jes 
将 此 式 两 边 消去 并 通过 简单 变换 可 以 得 
d od 
Dies a a= Murs (3-23) 


式 (3-23) 是 一 个 对 称 式 ,考虑 到 》) p;=1, 当 对 于 任意 iE S 均 有 ji 三 8(9 是 常量 数 
值 且 大 于 0) 时 ,得 到 一 个 解 ， = 
p= (1/o) Xt. i€SHe= Dia (3-24) 
现在 来 证 明 此 解 是 唯一 解 。 
由 于 在 式 (3-23) 中 ,对 于 一 个 特定 x db aM FER IES 是 常数 定 值 ， 


从 而 式 (3-23) 是 有 关 p; 的 常 系数 方程 。 设 S A om 个 状态 , 则 对 于 任意 一 个 特定 状态 rE 
S30 (3-23) RAMMA m AP m. 元 方程 组 ,显然 这 样 的 方程 组 仅 存 在 唯一 解 。 事 实 上 ,这 
与 p, 作为 马 氏 链 的 稳 态 概率 唯一 性 是 一 致 的 。 

式 (3-24) 表 明了 概率 p; 与 距离 成 反比 ,概率 分 布 服从 Kleinberg 提出 的 the Inverse 
r^-Power Distribution ,这 正 是 我 们 想 要 的 。 对 所 有 的 状态 zCzES) 有 稳定 的 概率 p. ,而 状 
态 x 表示 结 点 s 和 结 点 上 间 的 距离 ,有 z= || si ,因此 ,对 任意 的 结 点 * 属于 NN ,经 过 多 次 
缓存 置换 过 程 , 结 点 将 以 与 外 * 一 上 | —d 成 比例 的 概率 缓存 结 点 上 GE NDS. WEE, 

这 样 得 到 的 缓存 长 链 是 符合 Kleinberg 小 世界 模型 分 布 的 ,将 在 结构 化 的 路 由 表 上 构 
造 小 世界 网 络 ,以 缩短 查询 路 径 长 度 。 因 为 稳 态 概率 是 唯一 的 ,系统 总 是 收敛 到 想 要 的 概率 
分 布 。 并 且 由 于 马 氏 过 程 与 初始 值 无 关 , 从 而 无 论 初始 缓存 的 长 链 是 什么 ,在 有 限 步 内 , 系 
统 拓扑 总 是 向 小 世界 网 络 收敛 。 也 就 是 说 ,一 旦 执行 了 足够 的 随机 查询 ,系统 拓扑 就 将 形成 
想 要 的 小 世界 网 络 。 

2. 动态 情况 

与 上 述 不 同 ,下 面 考 虑 的 是 动态 情况 , 即 与 现实 更 吻合 的 情况 。 在 一 个 现实 系统 中 , 结 
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点 以 泊 松 率 加 入 和 离开 ,总 结 点 数 相对 稳定 。 定 理 3-3 说 明了 静态 下 的 小 世界 收敛 ,在 动 
态 的 情况 下 ,仍然 期 望 这 种 收敛 。 但 是 ,由 于 动态 下 结 点 的 动荡 性 ,一 种 严谨 的 定理 证 明 形 
式 将 引入 多 参量 和 复杂 化 ,这 并 不 是 我 们 当前 想 要 做 的 工作 。 这 里 ,我 们 仅 给 出 定性 的 分 
析 ,并 通过 实验 来 检测 。 分 析 如 下 : 

CD 首先 , 马 氏 过 程 本 是 一 个 动态 过 程 ,因此 即便 是 结 点 的 动态 加 入 与 离开 ,如 果 能 够 
有 足够 的 相对 静态 时 间 ,系统 仍然 能 够 如 同 静 态 情况 下 ,收敛 于 小 世界 网 络 。 

(2) 由 于 收敛 受到 结 点 运动 加 入 与 离开 影响 ,在 最 差 时 , 结 点 动态 频率 很 高 (不 停 加 入 
离开 时 ) ,查询 置换 基本 失效 ; 但 在 最 好 时 , 结 点 加 入 离开 时 间 上 断 续 ,有 足够 时 间 让 查询 置 
换 作 用 ,从 而 仍然 在 相对 稳定 的 状态 下 使 网 络 的 缓存 链 分 布 动态 收敛 于 小 世界 模型 分 布 。 
因此 ,查询 置换 率 和 结 点 的 泊 松 率 ( 平 均 加 入 离开 率 ) 是 关键 。 

(3) 假定 系统 中 结 点 的 平均 会 话 时 间 为 *( 单 位 为 min), 则 结 点 泊 松 率 ”一 1/s( 单 位 为 
min) ,并 设 它 的 平均 查询 时 间 为 g( 单 位 为 min), 则 它 的 查询 置换 率 为 1 二 1/g( 单 位 为 
min ')。 也 就 是 当 g=s 时 ,在 整个 结 点 存活 的 会 话 时 间 s 是 一 次 置换 。 倘 车 静 态 情 况 下 马 
氏 链 稳定 所 需要 的 步 数 即 需要 查询 置换 次 数 为 m, 则 动态 收敛 应 期 望 在 结 点 的 会 话 时 间 s 
内 能 有 m 次 置换 发 生 ,因而 有 : 

s=qXm>t=rXm (3-25) 

式 (3-25) 说 明 查 询 置换 率 与 结 点 的 泊 松 率 成 正比 。 因 此 ,要 减轻 结 点 动态 性 对 于 收敛 
的 影响 ,需要 尽 可 能 提高 查询 置换 率 。 

(4) 尽管 提高 查询 置换 率 能 够 减轻 结 点 动态 性 的 影响 ,但 是 相应 也 增长 了 附加 开销 。 
增长 的 附加 开销 包括 处 理 开销 及 网 络 带宽 开销 。 由 于 当前 计算 机 趋向 是 存储 的 不 断 增长 以 
及 CPU 处 理 能 力 的 提高 ,因此 ,附加 的 开销 主要 在 网 络 带宽 上 。 可 以 假设 一 条 查询 置换 消 
息 占用 带宽 为 5( 单 位 为 字 节 , 即 B), 则 为 了 近似 静态 收敛 效果 , 设 min 内 的 查询 置换 次 数 
为 +t, 满足 式 (3-25) ,从 而 查询 置换 消息 占用 带宽 是 +Xb(B/min) ,并 由 于 所 用 的 时 间 是 ;( 结 
点 会 话 时 间 ) ,附加 总 带宽 为 :XbXs( 单 位 为 B)。 设 结 点 当前 线路 带宽 为 w( 单 位 为 B/ 
min) ,从 而 结 点 平均 占用 线路 带宽 率 为 


f= s ebur = sme (3-26) 


因此 , 结 点 平均 占用 线路 带宽 率 是 与 结 点 的 平均 查询 置换 率 成 正比 。 

综 上 所 述 , 在 动态 情况 下 的 收敛 依然 是 可 行 的 ,但 是 必须 相应 增长 查询 置换 率 ,其 增长 
的 查询 置换 率 与 结 点 的 泊 松 率 成 正比 ; 增长 查询 置换 率 增 大 了 网 络 带宽 开销 ,其 平均 占用 
线路 带宽 率 同 样 正 比 于 查询 置换 率 。 需 要 在 现实 情况 下 进行 折 中 考虑 。 

3. 路 径 长 度 

定理 3-4 采用 概率 缓存 模式 的 小 世界 网 络 构 造 ,PCCAN 的 路 由 平均 路 径 跳 数 为 
O(log? x) FP OClog* (n'/4)) EP n RARER, 

WEBB: PCCAN 结构 类 似 于 Kleinberg 提出 的 小 世界 结构 。 它 们 都 有 相似 的 本 地 短 链 
接 和 一 条 长 链 。 尽 管 PCCAN 的 长 链 是 在 缓存 中 ,定理 3-3 证 明了 采用 概率 缓存 模式 ,缓存 
的 长 链 将 以 一 种 可 行 的 途径 服从 于 反 UKE GE GP f (the Inverse r"-Power Distribution) ,也 
就 是 说 ,对 于 一 结 点 “选择 结 点 v 作为 它 的 长 链 的 概率 p 为 
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p = dlu, v)” / (Qv? (3-27) 
vfu 


因此 ,参照 参考 文献 [12] 中 定理 2 的 一 个 相似 的 证 明 过 程 , 可 以 得 到 路 由 的 平均 路 径 跳 数 是 
O(log:r), 即 OClog? (2 4)», HEHE. 

相 比较 CAN 路 由 性 能 ,PCCAN 在 保持 O(1) 路 由 状态 下 ,将 平均 路 径 跳 数 由 OG) 
改进 到 O(log: (G5, 


3.2.5 讨论 
1. 动态 适应 


我 们 在 3. 2. 4 节 对 于 动态 收敛 情况 作 了 定性 分 析 , 并 认为 提高 查询 置换 率 是 关键 所 在 。 
实际 上 式 (3-26) 给 出 了 在 结 点 动态 情况 下 期 望 的 查询 置换 率 的 下 限 , 当 超 出 此 限制 时 , 结 
点 在 动态 下 不 仅 收敛 ,而 且 速 度 加 快 。 

根据 3. 2.4 节 的 分 析 , 应 有 : 


s2qXm>tS>rXm (3-28) 
j= 2 = thw? > rbmw™ (3-29) 


我 们 期 望 的 是 查询 置换 率 能 够 满足 式 (3-28) 并 且 有 较 小 的 fo 

当 现实 系统 布置 时 ,查询 置换 率 是 由 系统 里 的 查询 请 求情 况 所 决定 的 。 因 而 , 当 查询 请 
求 较 少 而 网 络 动态 较 强 时 ,很 可 能 不 能 满足 式 (3-28) 的 条 件 。 因 此 ,为 了 使 得 动态 收敛 可 
行 并 且 可 加 快 收敛 过 程 , 我 们 设计 了 主动 查询 机 制 的 技术 。 主 动 查询 机 制 根 据 式 (3-28) 与 
当前 查询 置换 的 实际 情况 来 主动 地 增加 查询 请 求 以 适应 动态 收敛 的 要 求 。 主 动 查询 算法 如 
下 (静态 稳定 步 数 m、 查 询 置 换 率 下 限 5 主动 加 速率 A 及 算法 调用 默认 时 间 间 隔 9 为 系统 
配置 的 已 知 参 数值 ): 

CD 测量 当前 的 查询 置换 率 。 结 点 根据 当前 自己 的 单位 时 间 内 查询 移 换 次 数 平均 值 
xir. 

(2) 测量 当前 的 泊 松 率 上 。 结 点 根据 单位 时 间 自 己 的 邻居 结 点 的 平均 失效 率 可 以 估计 
出 泊 松 率 7 。 

G) 根据 式 (3-28) 判 断 是 否 满足 三 7 Xm。 如 果 不 满足 ,计算 需要 的 主动 查询 率 = 
rm-—t- A; 如 果 满 足 , 则 还 要 考虑 是 否 满足 二 8, 如 果 不 满足 ,计算 需要 的 主动 查询 率 e= 
E 一 十 A, 而 如 果 满足 , 则 算法 结束 ,算法 调用 的 下 一 时 间 间 隔 为 默认 值 9。 

(4) 当前 结 点 以 s 的 主动 查询 率 向 网 络 中 随机 选择 的 结 点 主动 发 送 特定 查询 请 求 , 并 
设置 (1/F) 为 下 一 次 调用 算法 的 时 间 间 隔 。 此 特定 查询 请 求 的 特点 是 : 不 要 求 返回 和 请 求 
资源 , 它 仅 标识 源 发 起 点 属于 活动 状态 。 因 而 ,和 普通 查询 相 比 ,减轻 了 开销 。 

主动 查询 算法 的 (4) 中 通过 让 算法 调用 时 间 间 隔 与 算法 本 身 相 关 , 从 而 避 开 了 如 同 
Chord 的 Stabilization 算法 在 动态 情况 下 不 能 自 适 应 的 问题 。 并 且 , 当 系统 查询 充分 时 ,并 
不 激活 主动 查询 的 发 送 ,从 而 尽 可 能 减少 了 网 络 开销 。 事实 上 ,实际 系统 中 查询 请 求 频率 往 
往 比 结 点 的 加 入 退出 的 频率 高 出 好 多 数量 级 ,因而 发 送 主动 查询 并 不 是 经 常 必须 的 事情 。 

此 外 ,还 要 考虑 主动 查询 机 制 的 现实 性 , 它 引 起 的 网 络 开销 是 否 过 大 ,可 行 度 如 何 ? 为 
了 说 明 问题 ,我们 举 个 例子 。 参 考 文献 [2] 中 通过 Overnet WEA 50% 结 点 的 会 话 时 间 
小 于 1h, 但 也 说 明 有 50% 结 点 会 话 可 能 超过 1h。 为 了 说 明 现 实 的 可 行 性 ,不 妨 让 条 件 苛刻 
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些 , 让 会 话 时 间 在 lmin 到 60min 范围 ,并 且 假 定 结 点 的 线路 带宽 为 低 端 Modem 下 的 
56 000b/s 下 ,看 了 是 否 在 可 接受 的 范围 内 。 一 条 主动 查询 的 特定 消息 不 妨 假定 为 100B. 
m 可 以 假定 为 50( 如 实验 所 测 ) ,查询 率 不 妨 放大 设 为 2 倍 于 泊 松 率 , 这 样 下 来 , 太 的 范围 是 
[0. 0004,0.023]。 这 说 明 即 便 很 严 苛 的 情况 下 , 主动 查询 开销 所 占用 网 络 带 宽 资 源 也 是 很 
少 , 其 是 非 关键 性 的 。 

2. 均衡 置换 与 收敛 速度 

查询 置换 利用 蠕虫 路 由 的 实质 是 放大 一 条 查询 的 效用 ,使 得 收敛 速度 加 快 。 此 外 , 它 也 
能 有 效 减 轻 “ 热 键 " 行 为 ,使 置换 在 系统 内 均匀 。 因 为 虽然 有 流行 的 对 象 可 能 会 接受 很 多 请 
求 , 成 为 “ 热 键 ”, 但 对 哪个 键 进行 初始 请 求 的 结 点 可 以 被 认为 是 均一 地 从 网 络 中 选取 的 。 使 
用 蠕虫 路 由 置换 机 制 ,每 个 结 点 的 缓存 置换 发 生 概率 将 近似 趋 于 相同 。 

小 世界 网 络 收敛 受 查询 请 求 率 影响 ,而 设计 的 主动 查询 机 制 则 有 很 好 的 自 适应 ,以 保证 
收敛 速度 。 当 网 络 查询 请 求 少时 , 低 于 下 限 5, 将 激活 主动 机 制 ,增加 主动 查询 率 ; 而 网 络 动 
态 时 , 则 自 适应 调节 主动 查询 率 。 此 外 ,还 提供 了 主动 加 速率 A, 以 便 更 好 地 利用 应 用 的 特 
上 点。 静态 稳定 步 数 冯 查询 置换 率 下 限 5 及 主动 加 速率 A 均 为 系统 参数 ,系统 可 以 根据 实际 
情况 进行 调整 以 更 好 服务 实际 应 用 。 

3. 路 由 表 维 护 与 概率 效应 

PCCAN 的 路 由 表 维 护 考虑 本 地 短 链 接 和 缓存 长 链 的 维护 。 对 本 地 短 链 接 的 维护 和 
CAN 相同 ,读者 可 以 查阅 参考 文献 [21] 得 到 更 详细 的 说 明 。 对 缓存 长 链 ,为 提高 有 效 利用 
率 可 设 定 两 种 软 状态 : 有 效 和 无 效 ,并 周期 性 进行 软 状态 更 新 。 

缓存 长 链 的 及 时 更 新 对 于 系统 路 由 性 能 是 重要 的 。 除 了 正常 的 周期 更 新 外 ,还 可 以 利 
用 概率 效应 。 所 谓 概率 效应 是 指 由 于 结 点 利用 了 基于 蠕虫 路 由 的 缓存 置换 策略 ,从 而 在 每 
次 查询 到 达 时 都 会 利用 当前 缓存 长 链 进行 概率 更 新 ,导致 失效 长 链 将 以 一 定 概率 被 当前 的 
活动 查询 更 新 ,而 更 新 后 的 缓存 长 链 是 活动 的 。 概 率 效应 可 以 大 大 提高 缓存 长 链 的 有 效 性 ， 
特别 在 主动 查询 机 制 的 作用 下 ,更 能 够 适应 动态 网 络 环境 下 的 路 由 表 维护 。 

4. 多 条 长 链 

上 面 只 考虑 了 一 条 缓存 长 链 的 情况 ,现在 扩展 到 k(k 三 1) 条 缓存 长 链 的 情况 。 这 时 ,每 
一 结 点 都 缓存 条 长 链 。 并 当 一 条 路 由 消息 到 达 时 . 它 将 当前 结 点 所 有 缓存 的 条 长 链 同 
时 用 到 达 的 查询 消息 进行 置换 ,以 保持 收敛 速度 与 缓存 仅 一 条 长 链 时 的 情况 相似 。 同 样 
的 , 它 也 是 用 查询 初始 结 点 来 与 缓存 的 长 链 进行 概率 置换 的 。& 条 缓存 的 长 链 可 以 看 作 是 
定理 3-3 所 描述 的 Markov 链 中 的 个 状态 ,由 于 它们 都 参与 了 马 氏 过 程 ,因而 比 单 链 具有 
更 快 的 收敛 性 。 

随 着 长 链 数量 的 增加 ,对 一 个 查询 的 路 由 可 以 更 多 的 短路 径 选择 ,因而 平均 路 径 跳 数 得 
到 减少 。 

5. 缓存 置换 策略 

下 面 考虑 不 同 的 缓存 置换 策略 对 于 路 径 长 度 的 影响 。 

对 于 传统 的 确定 性 缓存 置换 ,比较 常用 的 有 “最 近 最 少 使 用 算法 ”(LRU 算法 ) , 它 是 将 
最 近 一 段 时 间 内 最 少 被 用 到 的 缓存 项 淘汰 。 当 缓存 数据 项 时 ,可 能 会 提高 数据 项 的 命中 率 。 
但 是 在 PCCAN 中 ,缓存 的 是 结 点 用 于 定位 ,这 样 ,采用 LRU 算法 是 无 向 性 更 新 缓存 ,将 不 
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可 能 导致 整体 性 能 的 优化 。 
对 于 本 书 的 概率 性 缓存 置换 ,也 可 以 试 采用 Watts & Strogatz 小 世界 模型 提出 的 方 


法 。Watts & Strogatz 的 模型 中 , 结 点 选择 v 作为 长 链 的 概率 是 1/ > )d Cuv) 7. 长 链 呈 


wu 
— SE 41 ffi (Uniform Distribution) 。 这 种 长 链 选择 的 问题 是 没有 考虑 所 选 结 点 在 拓扑 中 
的 位 置 ,从 而 不 能 够 形成 小 世界 的 聚集 现象 ,因而 不 能 够 收敛 于 小 世界 网 络 。 在 参考 文 


6. 维度 影响 

考虑 PCCAN 的 维度 对 路 径 长 度 的 影响 ,这 时 我 们 关心 缓存 长 链 的 作用 。 随 着 维度 增 
加 ,网 络 直径 将 会 减 小 ,这 样 ,长 链 对 网 络 的 影响 就 降低 了 。 因 此 ,PCCAN 更 适合 布置 于 低 
维 中 。 特 别 的 是 , 当 把 它 弱 化 为 一 维 时 , 它 的 实际 效果 类 似 Symphony"? 。 不 同 的 是 ， 
Symphony 采用 主动 长 链 构造 ,而 PCCAN 采用 的 是 缓存 构造 。 


3.2.6 实验 


本 节 将 通过 PCCAN 仿真 实验 得 出 相应 结论 。 本 处 所 用 仿真 器 是 用 Java 编写 ,并 在 
Linux 平台 下 测试 的 。 

分 别 测试 PCCAN 在 静态 情况 和 动态 情况 下 的 收敛 过 程 及 路 由 性 能 。 结 点 将 它 加 入 网 
络 时 的 联系 结 点 作为 初始 的 长 链 , 当 有 一 条 查询 消息 到 达 , 它 在 传递 消息 的 同时 利用 概率 置 
换 策略 更 新 结 点 的 缓存 。 仿 真是 以 二 维 PCCAN 为 基础 ,具有 与 Kleinberg 相近 的 拓扑 结 
构 。PCCAN 运行 在 64 一 4096 个 结 点 的 网 络 且 这 些 结 点 在 网 络 中 是 随机 分 布 的 。 

1. 静态 情形 

在 静态 实验 中 ,理想 的 情形 是 网 络 中 不 存在 任何 结 点 的 加 入 或 者 离开 。 当 N CN 从 64 
到 4096 变化 ) 个 结 点 加 入 网 络 后 ,从 中 随机 选取 两 个 结 点 ,其 中 一 个 向 另 一 个 发 送 查 询 请 
求 。 路 径 跳 数 和 缓存 置换 的 次 数 在 每 一 次 查询 中 被 记录 , 当 100 次 查询 完成 后 ,计算 平均 路 
径 跳 数 和 每 个 结 点 的 平均 置换 次 数 。 

首先 讨论 二 维 静态 PCCAN 网 络 的 收敛 情况 ,其 中 网 络 的 初始 结 点 数 设 为 N= 1024. 
并 比较 结 点 缓存 不 同 长 链 数 、 运 用 不 同 的 缓存 置换 策略 及 PCCAN 维度 对 于 路 径 长 度 路 由 
性 能 的 影响 。 

1) 单条 长 链 

考虑 理想 的 情形 即 网 络 中 不 存在 任何 结 点 的 加 入 或 者 离开 , 当 1024 个 结 点 加 入 网 络 
后 ,从 中 随机 选取 两 个 结 点 ,其 中 一 个 向 另 一 个 发 送 查 询 请 求 。 路 径 跳 数 和 缓存 置换 的 次 数 
在 每 一 次 查询 中 被 记录 。100 次 查询 完成 后 ,计算 平均 路 径 跳 数 和 每 个 测量 的 平均 值 。 从 
图 3-14 中 可 以 清楚 地 看 出 , 当 全 部 结 点 的 平均 置换 次 数 为 50 次 时 系统 完全 达到 稳定 。 这 
是 一 个 令 人 满意 的 结果 , 它 说 明 每 个 结 点 需要 至 少 50 步 使 其 缓存 置换 的 Markov 链 达到 稳 
定 , 从 而 形成 小 世界 网 络 ,这 是 与 定理 3-3 相符 合 的 。 

此 外 ,在 单 链 下 ,还 变换 了 网 络 中 参与 结 点 数目 来 比较 PCCAN 与 CAN 的 路 由 性 能 。 
需要 强调 的 是 平均 路 径 长 度 的 改进 ,变换 网 络 参与 结 点 数 从 64 到 4096 ,并 且 路 径 长 度 是 系 
统 收敛 后 的 稳 态 测试 的 ,结果 如 图 3-15 所 示 。 观 察 图 3-15 可 知 ,PCCAN 的 路 径 跳 数 比 
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3-15. 单 链 下 的 路 径 长 度 


CAN 显著 地 减少 ,这 与 定理 3-4 是 一 致 的 。 

2) BAK 

我 们 也 测试 了 多 条 缓存 长 链 的 情况 。 相 对 于 缓存 一 条 长 链 的 情况 , 当 系统 中 的 每 个 结 
点 概率 缓存 置换 多 条 长 链 时 ,系统 查询 消息 的 平均 路 径 跳 数 下 降 趋 势 更 为 明显 ,并 且 在 结 点 
的 平均 置换 次 数 与 单条 长 链 情况 相似 时 ,系统 查询 消息 的 平均 路 径 跳 数 也 平缓 地 达到 一 种 
稳定 的 状态 ( 即 平均 路 径 跳 数 在 某 一 个 很 小 的 区 间 内 波动 )。 这 说 明 缓 存 多 条 长 链 可 达到 小 
网 络 收敛 并 且 可 以 更 为 有 效 地 减少 PCCAN 系统 查询 消息 的 平均 路 径 跳 数 。 在 二 维 
PCCAN 中 ,网 络 结 点 数 为 1024 个 ,变换 结 点 缓存 的 长 链 数 目 ,得 到 实验 结果 如 图 3-16 和 
图 3-17 所 示 。 其 中 图 3-16 是 将 长 链 数目 从 3 变换 到 6 ,并 观察 其 稳定 效果 ; 而 图 3-17 则 是 
在 稳定 收敛 下 比较 不 同 长 链 数目 的 路 径 长 度 。 测 量 点 取 100 次 的 平均 值 。 

从 图 3-16 中 可 以 看 到 , 当 概 率 缓存 置换 的 长 链 数 递 增 时 ,系统 有 更 快 的 收敛 性 ,这 是 由 
于 多 链 能 够 在 一 次 置换 时 有 更 多 的 状态 参与 马 氏 链 转 移 , 从 而 加 速 了 收敛 。 此 外 , 随 着 长 链 
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图 3-16 不 同 长 链 数目 的 比较 


数目 增多 ,系统 查询 消息 的 平均 路 径 跳 数 在 达到 稳定 状态 后 的 值 相 对 递减 , 即 长 链 数 越 多 ， 
平均 路 径 跳 数 越 少 。 这 是 由 于 概率 缓存 的 长 链 数 越 多 , 结 点 在 传递 查询 消息 时 的 路 由 选择 
就 越 多 ,也 就 越 可 能 选择 到 最 佳 的 下 一 跳 结 点 ,从 而 减少 查询 消息 的 路 径 跳 数 。 但 由 图 也 可 
以 观察 到 递减 幅度 在 不 断 减 少 , 说 明 长 链 的 影响 也 是 有 限 的 。 随 着 长 链 数目 增多 ,改进 将 越 
来 越 趋 于 平缓 ,如 图 3-17 所 示 ,说 明 长 链 对 于 缩短 网 络 直径 的 效用 达到 了 一 个 限 值 。 
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3) 缓存 置换 策略 


为 了 更 好 地 说 明 概率 缓存 置换 策略 对 于 改进 网 络 路 由 性 能 的 有 效 性 ,在 实验 中 对 比 了 
运用 不 同 置换 策略 对 系统 收敛 的 影响 。PCCAN 中 比较 了 三 种 缓存 置换 策略 : 采用 
Kleinberg 模式 ,采用 Watts & Strogatz 模式 ,采用 LRU 模式 。 

在 二 维 PCCAN 中 ,网 络 结 点 数 为 1024 个 , 结 点 缓存 的 长 链 数目 为 3, 变换 三 种 不 同 的 
置换 模式 。 图 3-18 显示 了 运用 不 同 置换 策略 后 系统 查询 消息 平均 路 径 跳 数 统计 情况 。 从 
图 中 可 以 看 出 ,在 系统 处 于 相同 状态 下 运用 这 些 不 同 的 置换 策略 ,系统 的 收敛 情况 是 不 同 
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图 3-18 三 种 缓存 置换 策略 的 比较 


的 。 在 运用 LRU 模式 时 ,系统 查询 消息 的 平均 路 径 跳 数 不 再 呈现 下 降 趋 势 , 只 是 在 初始 值 
附近 区 间 内 波动 ; 在 运用 Watts & Strogatz 模式 时 ,系统 查询 消息 的 平均 路 径 跳 数 有 下 降 
趋势 ; 在 运用 Kleinberg 模式 时 ,系统 查询 消息 的 平均 路 径 跳 数 呈 显 著 下 降 趋势 ,并 且 在 完 
成 了 一 定 次 数 的 查询 后 ,系统 逐步 趋 于 稳定 的 状态 。 

这 些 观察 结果 是 与 在 3. 2.5 节 的 分 析 蚌 一 致 的 。LRU 模式 是 无 向 性 更 新 缓存 ,因而 对 
于 路 径 长 度 的 改进 几乎 不 起 作用 。 而 Watts & Strogatz 模式 由 于 缓存 长 链 的 建立 没有 考 
虑 结 点 的 拓扑 位 置 的 概率 相关 性 ,从 而 不 能 够 起 到 “路 由 线索 "的 作用 ,因而 改进 性 能 有 限 。 
只 有 Kleinberg 模式 能 够 较 好 地 捕获 网 络 结 点 的 布置 特征 ,从 而 将 提供 路 由 的 快捷 方式 , 较 
好 地 减少 了 路 由 的 路 径 长 度 。 因 而 ,PCCAN 采用 Kleinberg 模式 作为 其 缓存 置换 ,是 最 佳 
的 方案 。 

4) 维度 影响 

图 3-19 所 示 对 比 了 不 同 维度 对 PCCAN 的 路 径 长 度 的 影响 。 实 验 的 网 络 结 点 数目 为 
1024, 变 化 PCCAN 系统 的 维度 参数 从 2 到 10。 通 过 比较 可 以 发 现 PCCAN 仿真 系统 的 收 
敛 性 在 低 维 的 情况 下 表现 得 更 为 明显 ,比如 在 二 维 的 情况 下 , PCCAN 系统 收敛 后 的 平均 路 
径 跳 数 相 比 于 同等 参数 设置 下 的 CAN 有 较 大 幅度 减少 。 这 与 3. 2. 5 节 的 分 析 是 一 致 的 。 

2. 动态 情形 

本 节 设 置 PCCAN 系统 为 1 条 缓存 长 链 ,并 测试 动态 环境 下 系统 的 收敛 性 和 动态 适应 
性 。 对 于 一 个 实际 的 网 络 , 结 点 的 加 入 和 离开 是 动态 的 。 仿 真实 际 网 络 如 下 。 

当 1024 个 结 点 加 入 网 络 后 ,一 些 结 点 离开 网 络 ,一 些 结 点 加 入 网 络 , 结 点 的 加 入 和 离开 
以 相同 的 速度 。 这 种 方式 下 , 结 点 的 总 数 仍 然 是 不 变 的 ,这 是 对 实际 网 络 的 一 种 普遍 假设 。 
为 了 形成 小 世界 网 络 ,缓存 置换 机 制 应 该 让 一 个 随机 新 加 入 的 结 点 有 达到 稳定 的 可 能 性 。 
使 用 3. 2. 5 节 提 出 的 主动 查询 机 制 。 主 动 查询 能 够 自 适应 结 点 的 动态 性 从 而 保障 和 加 速 收 
敛 速度 ,并 且 也 能 够 通过 概率 效应 帮助 路 由 表 修 复 失效 的 缓存 链 。 以 下 实验 中 主动 查询 算 
法 的 系统 参数 配置 如 下 : 

静态 稳定 步 数 : m=50, 
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查询 置换 率 下 限 : 5 一 1 K/min, 

主动 加 速率 : A=0.5 K/min, 

默认 调用 时 间 间 隔 : O= 30min, 

D 动态 收敛 

让 初始 的 平均 结 点 查询 率 上 一 1min '( 即 结 点 每 1min 发 出 一 个 查询 请 求 ) ,以 及 结 点 的 
泊 松 率 7 — 0. lmin-:( 即 结 点 加 入 和 离开 的 速度 为 10min 一 个 ) 。 当 主动 查询 过 程 调用 时 ， 
由 算法 得 出 由 于 系统 动态 性 ,要 补偿 的 主动 查询 率 e— rm — 1 +A=0.1%50—-14+0.5 
4. 5min-!。 这 样 每 个 结 点 在 其 存活 期 内 (10min) 平 均 可 以 得 到 55 次 置换 , 故 在 此 动态 网 络 
中 系统 仍然 能 达到 较 好 收敛 。 

接 下 来 ,从 网 络 中 随机 选取 两 个 结 点 ,其 中 一 个 向 另 一 个 发 送 查 询 请 求 。 路 径 跳 数 和 组 
存 置换 的 次 数 在 每 一 次 查询 中 被 记录 。100 次 查询 完成 后 ,计算 平均 路 径 跳 数 和 每 个 结 点 
的 平均 置换 次 数 。 对 于 动态 模型 ,计算 平均 路 径 跳 数 时 只 考虑 成 功 的 查询 ,计算 平均 置换 次 
数 时 只 考虑 当前 活着 的 结 点 。 图 3-20 所 示 为 实验 结果 。 与 静态 模型 相 比 ,会 聚 过 程 呈现 更 


以 这 种 动荡 的 方式 到 达 稳定 状态 。 原 因 是 概率 置换 策略 总 是 趋向 于 保留 短 链 接 , 并 使 得 长 
链 的 分 布 服从 反 > 次 寡 律 分 布 , 因 此 拓扑 结构 会 逐渐 朝 着 小 世界 网 络 的 方向 调整 并 最 终 达 
到 一 个 稳定 结构 。 

2) 动态 适应 

PCCAN 系统 利用 主动 查询 机 制 来 适应 动态 网 络 环境 。 实 验 是 通过 在 变化 结 点 平均 会 
话 时 间 的 动态 网 络 下 ,测量 路 径 长 度 的 波动 性 及 结 点 的 主动 查询 率 ,从 而 检验 其 适应 情况 。 
实验 中 设置 初始 结 点 平均 查询 率 z 二 1min ', 结 点 的 平均 会 话 时 间 变 化 为 5min, 10min, 
15min,20min,25min,30min, 

如 图 3-21 所 示 ,可 以 观察 到 平均 路 径 长 度 随 着 会 话 时 间 变 化 而 在 一 个 范围 内 波动 。 这 
说 明 尽 管 会 话 时 间 变 化 导致 网 络 动态 ,然而 主动 查询 能 够 自 适应 网 络 的 动态 变化 ,从 而 保证 
了 可 靠 的 收敛 性 ,使 得 路 径 长 度 波动 性 较 小 。 此 外 ,我 们 还 可 观察 到 结 点 的 平均 查询 率 随 会 
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话 时 间 延 长 而 较 大 地 减少 。 这 是 由 于 结 点 平均 会 话 时 间 变 大 ,网 络 动 态 性 相对 减弱 ,致使 主 
动 查 询 率 作为 补偿 作用 也 相应 大 大 减少 。 综合 实验 的 观察 ,可 说 明 PCCAN 系统 对 于 动态 
网 络 有 良好 的 适应 性 。 
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图 3-21 自 适应 动态 网 络 


3.2.7 ”相关 工作 


DHT 路 由 性 能 提高 的 问题 得 到 了 相当 的 重视 ,特别 是 其 中 的 状态 与 效率 的 问题 外。 小 
世界 网 络 具 有 低 状 态 、 高 效率 的 特性 ,因此 ,将 它 与 路 由 结合 .会 是 一 种 上 述 问题 较 好 的 解决 
之 道 , 这 正 是 本 节 的 出 发 点 。 我 们 基于 Kleinberg 的 小 世界 理论 ,提出 了 一 种 新 型 的 概率 组 
存 长 链 技术 ,可 以 在 DHT 路 由 表 链 间 构 造 小 世界 ,以 改善 DHT 路 由 。 我 们 的 工作 与 以 往 
工作 不 同 ,具体 如 下 。 

Symphony?! fi Hj  — F} Kleinberg 构造 的 连续 化 版 本 来 避免 Kleinberg 构造 所 需 的 
全 局 信息 。 然 而 ,这 种 连续 化 模式 与 我 们 的 概率 缓存 模式 相 比 ,在 结 点 动态 加 入 和 离开 时 需 
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要 相当 高 的 调整 开销 。Zhang H. 等 “中 讨论 了 一 种 以 概率 缓存 模式 在 Freenet 上 形成 小 世 
界 现 象 的 方法 ,但 是 缓存 的 对 象 不 同 。 参 考 文献 [21] 所 涉及 的 论文 中 缓存 的 是 资源 索引 键 ， 
它 辅助 非 结构 系统 中 的 Flooding 方式 的 路 由 定位 ; 而 我 们 缓存 的 是 结 点 标识 ,并 成 为 DHT 
路 由 表 的 核心 部 分 ,辅助 结构 化 系统 的 DHT 路 由 定位 。 参 考 文献 [22] 提 到 了 一 个 与 我 们 
模式 类 似 的 方法 。 但 它 所 讨论 的 局 限于 一 维 标识 空间 ,并 且 没 有 探讨 维度 的 普遍 化 及 动态 
情形 处 理 等 关键 性 问题 。 

本 节 的 概率 缓存 模式 是 对 传统 的 确定 缓存 模式 的 突破 。 传 统 的 确定 缓存 模式 如 LRU 
已 经 被 广泛 地 应 用 于 非 结构 化 P2P 系统 ,以 减少 网 络 拥塞 和 提高 命中 率 C] 。 事 实 上 ,在 应 
用 Flooding 路 由 的 系统 ,如 Gnutella, Freenet 中 ,使 用 确定 缓存 模式 对 于 提高 路 由 的 效率 
具有 非常 重要 的 作用 。 因 为 这 些 系统 中 Flooding 路 由 终点 是 资源 所 在 地 ,而 不 是 资源 索 
引 , 从 而 确定 式 缓 存 能 够 提供 直接 的 快捷 键 。 与 此 不 同 ,结构 化 的 DHT-P2P 系统 中 DHT 
路 由 终点 是 资源 索引 ,因而 要 区 分 开 缓 存 结 点 标识 和 缓存 结 点 上 的 数据 项 。 当 缓存 结 点 标 
识 时 ,采用 确定 式 缓 存 ( 如 LRU) ,由 于 其 无 向 性 ,并 不 能 够 辅助 路 由 达到 全 局 优化 (本 节 的 
实验 已 证 实 了 此 点 ) 。 而 当 缓 存 结 点 上 的 数据 项 时 ,在 路 由 过 程 中 不 可 直接 得 到 此 数据 项 ， 
需要 额外 的 传送 操作 ,其 开销 将 是 非常 大 的 ,而 且 作 用 有 局 部 性 , 它 的 全 局 优化 性 能 并 不 确 
定 。 因 此 ,在 DHT-P2P 系统 中 ,往往 采用 确定 缓存 用 于 减少 热点 ”问题 29 。 

值得 注意 的 是 ,近来 提出 了 一 些 具有 常量 度 的 DHT 新 系统 构造 ,能 够 采用 常量 的 状态 
O(1) 达 到 O(logsn) 的 路 由 效率 ,如 Koordef* 引 Viceroy 中 等 。 一 方面 ,它们 的 工作 与 本 节 一 
样 ,都 是 考虑 常量 状态 的 低 度 网 络 下 ,达到 优化 的 路 由 效率 。 另 一 方面 , 相 比 它们 的 工作 ,本 
节 的 工作 具有 以 下 两 个 性 能 优点 : 

CD 它们 必须 重 构 整个 网 络 建立 新 的 系统 ,而 不 能 够 兼容 原 有 老 系统 。 本 节 工 作 则 是 
在 原 有 系统 下 的 性 能 改进 ,而 这 种 向 下 兼容 性 往往 是 为 现实 所 需要 的 。 

(2) 它们 工作 于 特别 的 拓扑 构造 ,如 de Bruijn、Butterfly, 应 用 性 能 很 大 程度 局 限于 拓 
扑 的 特性 。 本 节 工 作 结合 了 小 世界 模型 理论 ,是 一 种 普 适 技术 ,并 不 特别 强调 拓扑 的 特性 ， 
因而 具有 广泛 的 应 用 领域 。 本 节 采 用 的 技术 方法 可 以 进一步 作用 于 这 些 特殊 的 拓扑 之 上 。 


3.3 Chord 最 优 路 由 


Chord 是 由 2 个 结 点 构成 的 一 个 环 , 环 上 的 每 个 结 点 保存 该 结 点 后 面 2 21 ,2?,…， 
2" 位 共计 冯 (m2 过 0) 个 后 续 结 点 的 指针 信息 。 由 于 主机 间 的 TCP 连接 是 双向 的 ,因此 
Chord 环 实际 上 也 是 双向 的 C9 。 但 是 标准 的 Chord 协议 路 由 只 用 了 边 的 一 个 方向 。 这 里 
首先 给 出 Chord 协议 路 由 的 形式 化 描述 ,将 路 由 过 程 抽象 成 一 个 整数 由 一 个 数列 受 限 的 线 
性 表示 问题 。 然 后 ,利用 Chord 的 双向 边 来 寻求 路 由 表 结 构 的 优化 ,分 析 并 提出 Chord 协 
议 在 满 环 情况 下 的 最 优 路 由 表 结 构 . 给 出 基于 最 优 路 由 表 结 构 的 路 由 算法 ,并 证 明 在 Chord 
满 环 情况 下 三 倍数 路 由 表 结 构 是 最 优 路 由 表 结 构 。 接 下 来 ,针对 于 实际 中 Chord 环 的 非 满 
环 特性 ,提出 了 多 种 路 由 表 构 造 算法 .实验 证 明 该 构造 比 原 Chord 的 路 由 效率 更 高 。 

P2P 网 络 的 关键 问题 是 对 象 的 定位 和 路 由 中 。 在 这 方面 有 很 多 的 研究 工作 正在 进行 ， 
总 体 来 看 ,主要 分 为 两 种 方式 : 一 是 非 结构 化 路 由 ,二 是 结构 化 路 由 。 非 结构 化 路 由 有 
Gnutella‘? , Freenet? 等 。 每 个 结 点 仅 维护 邻居 路 由 信息 ,搜索 采用 洪 泛 方法 ,搜索 的 范围 
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用 TTL 参数 来 控制 ,很 显然 搜索 在 超出 一 定 范围 后 不 能 进一步 扩展 。 结 构 化 路 由 有 
Tapestry9?79? Pastry! .Chord55 等 ,它们 都 基于 DHT (Distributed Hash Table)" RER , 
路 由 表 具 有 和 良好 的 结构 性 ,查找 具有 确定 性 , 它 具 有 较 好 的 可 扩展 性 能 。 分 布 式 哈 希 算法 是 
适用 于 规模 可 扩展 网 络 的 新 一 代 路 由 算法 ,该 算法 利用 小 世界 原理 ,在 网 络 中 的 每 个 结 点 只 
存储 部 分 其 他 结 点 的 信息 ,每 个 结 点 及 文件 都 通过 预定 的 哈 希 函数 映射 到 一 个 Overlay 层 
空间 的 一 个 ID 上 ,具体 的 路 由 由 多 个 结 点 协作 完成 。DHT 方法 的 共同 特征 是 将 对 象 空间 
映射 到 虚拟 名 字 空 间 ,在 虚拟 名 字 空 间 中 均匀 分 配 映射 对 象 ,从 而 方便 地 实现 对 象 到 结 点 的 
映射 。 结 构 化 路 由 中 每 个 结 点 维护 一 个 按 一 定 的 方法 构造 的 结 点 列表 ,用 来 改进 路 由 效率 。 

与 现 有 的 工作 相 比 ,Chord 算法 具有 简单 性 、 可 验证 性 和 可 扩展 性 等 优点 。Chord 算法 
的 路 由 跳 数 和 网 络 直径 优 于 CAN 算法 , 结 点 加 入 过 程 和 维护 开销 优 于 Tapestry 算法 和 
Pastry 算法 ,因此 本 节 主 要 基于 Chord 算法 进行 研究 。 

我 们 注意 到 ,由 于 主机 间 的 TCP 连接 是 双向 的 ,因此 ,实际 上 Chord 拓扑 是 双向 的 ,但 
是 标准 的 Chord 协议 只 用 了 边 的 一 个 方向 , 正 是 因为 Chord 的 双向 性 ,使 得 原来 的 路 由 表 
(Finger Table) 中 的 许多 项 变 得 元 余 起 来 ,因为 3 一 4 一 1 并 且 3 一 2 十 1, 即 可 以 从 两 个 方向 
来 逼近 目标 接点 。 因 为 在 双向 Chord 的 路 由 表 中 ,不 仅 保存 了 正 向 的 路 由 表 , 而 且 还 保留 
了 反 向 的 路 由 表 。 在 这 种 情况 下 ,如 何 最 优化 路 由 表 结 构 ,是 本 节 研 究 的 主要 内 容 。 


3.3.1 Chord 协议 


Chord 51:509 FE di MIT 提出 的 一 种 分 布 式 查找 协议 ,提供 一 种 基于 DHT 的 有 效 分 布 
式 查找 服务 。 

Chord 的 核心 在 于 提供 了 一 个 快速 的 分 布 式 哈 希 计算 的 功能 ,把 结 点 的 ID 和 文件 映射 
到 存储 它们 索引 的 结 点 上 去 。Chord 利用 连续 哈 希 ,一 方面 ,这 样 可 以 基本 实现 负载 平衡 
(每 一 个 结 点 基本 上 能 够 接受 数量 差不多 的 值 ), 另 一 方面 , 当 第 个 结 点 加 入 (离开 ) 网 络 
时 ,只 有 O(/n) 部 分 值 被 移 到 了 不 同 的 地 方 .这 显然 是 用 最 小 的 代价 维护 了 负载 均衡 。 

另外 ,Chord 协议 可 以 使 得 每 一 个 结 点 并 不 需要 知道 所 有 的 其 他 结 点 的 位 置 ,改进 了 连 
续 哈 希 的 可 扩展 性 。 一 个 Chord 结 点 只 需要 知道 一 小 部 分 关于 其 他 结 点 的 路 由 信息 。 因 
为 这 些 信息 都 是 分 布 式 的 。 在 稳定 状态 下 ,在 一 个 有 个 结 点 的 系统 中 ,每 个 结 点 只 需要 维 
持 O(logn) 条 关于 其 他 结 点 的 信息 。 进 行 搜索 也 只 需要 O(logn) 条 信息 。 每 次 当 结 点 加 入 
或 者 离开 系统 时 ,Chord 都 必须 更 新 路 由 信息 ,但 是 基本 上 每 次 最 多 产生 O(log*n) 条 信息 。 

例如 ,在 Chord 协议 中 ,该 算法 中 每 个 结 点 和 文件 都 映射 到 160 位 的 标识 。 该 标识 通过 
对 文件 名 或 结 点 IP 哈 希 得 到 , 结 点 和 文件 ID 在 一 维 空间 上 构成 一 个 环 ,文件 关键 字 存储 在 
文件 ID 的 后 继 结 点 上 。 

图 3-22 为 Chord 逻辑 环 及 其 路 由 表示 意图 ,图 3-23 所 
示 为 一 个 拥有 三 个 结 点 0、1 和 3 的 Chord 环 实例 。 

Prasanna Ganesan 和 Gurmeet Singh Manku'? 对 Chord 
的 路 由 表 进 行 了 研究 ,该 文章 的 主要 思想 是 鉴于 TCP 的 网 络 
连接 的 双向 性 ,进而 分 析 最 优 路 由 表 构 建 。 该 文章 将 最 优 路 
由 表 问 题 转 化 成 一 个 二 进 制 减法 问题 (Binary Subtraction 图 3-22 Chord 的 逻辑 环 及 其 
Problem) ,具体 为 : 给 定 6 三 1, 给 定 一 个 整数 d(0<d<2’), 路 由 表 项 
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要 确定 一 个 整数 对 (d d^) BER d 和 d” 均 为 6 位 的 整数 ,使 得 d 二 d' 一 d 或 者 2b—d=d" 
d' 成 立 。 在 这 个 情况 下 ,最 小 化 有 H(d) 十 HH(d4), 其 中 ,函数 H(z) 为 xz 的 海 明 范 数 
(Hamming Norm) , 海 明 范 数 也 就 是 整数 z 的 二 进 制 表示 中 1 的 个 数 。 解 出 这 个 二 进 制 减 
法 问题 的 最 优 解 ,也 就 对 应 了 原 Chord 的 最 优 路 由 。 


Finger Table keys 
start] int. |succ.]| 6 
[1.2) 
[.4) 3 
[4.0) 0 


n= 


0 Finger Table keys 
0 1 7 1 start| int. [suce]] | 

= 2 |[23) 3 

7 1Q successor(1)=1 3 35) 3 
5 [Dj 0 


N 


6 A successor(2)=3 6 
successor(6)=0 i Finger Table keys 
start] int. [succ]| 2 
5 3 4 |[45)| 0 
5 3 4 5 |[5,7)| 0 
4 2 7 |[7.3)| 0 


3-23 ”拥有 三 个 结 点 0、1 和 3 的 Chord 标识 环 


3.3.2 问题 描述 


下 面 分 两 种 情况 进行 研究 : 一 种 是 当 Chord 环 为 满 环 情况 , 另 一 种 是 当 Chord 环 为 非 
满 环 的 情况 。 

1. 相关 定义 

定义 3-8 在 Chord 协议 中 ,每 一 台 机 器 经 哈 希 都 唯一 对 应 Overlay 层 的 一 个 ID。 如 
RÆ Chord 环 的 ID 空间 中 不 存在 空闲 的 ID, 即 不 存在 没有 被 机 器 哈 希 到 的 情况 , 称 这 种 情 
况 下 的 Chord 环 为 满 环 。 

显然 , 满 环 是 一 种 极端 情况 ,在 满 环 情况 下 ,没有 结 点 的 进入 和 退出 , 故 是 Chord 环 是 
静态 的 。 

定义 3-9 每 一 台 机 器 经 哈 希 都 唯一 对 应 Overlay 层 的 一 个 ID, 同 时 ,至 少 存在 一 个 ID 
没有 被 主机 哈 希 到 。 我 们 称 这 种 情况 下 的 Chord 环 为 非 满 环 。 

2. Chord 路 由 的 形式 化 

首先 ,从 数学 角度 上 看 Chord 路 由 算法 可 以 分 为 以 下 步骤 : 

(1) 计算 出 源 结 点 和 目的 结 点 之 间 的 顺 时 针 的 ID 距离 为 

d — (y—x+2*) mod 2 

(2) 将 这 个 数 d 用 二 进 制 表示 出 来 。 

(3) 利用 该 二 进 制 数 中 的 从 左 到 右 1 的 位 置 进行 路 由 。 

显然 ,该 路 由 是 单 性 的 ,仅仅 利用 到 了 Chord 的 单项 边 , 但 在 实际 网 络 中 ,由 于 TCP 连 
接 是 双向 的 ,因此 Chord 环 应 该 是 一 个 无 向 环 。 

在 Chord 协议 中 ,任意 一 个 结 点 已 仅 维护 有 限 个 (2 个 ) 其 他 结 点 的 信息 ,这 些 信 息 构成 
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EE OBR dM SF, (ay az au) ,其 中 ,ai 表示 路 由 表 中 的 第 i 个 路 由 结 点 指针 
所 指向 的 结 点 的 Overlay 层 ID 与 本 结 点 ID 的 模 N 差 为 a;, 用 ID(P) 来 表示 结 点 PP 的 
Overlay 层 的 ID 号 。 

将 点 已 ÆR P; 表示 为 : P; 习 P;。 当 P; 的 Overlay 层 路 由 表 中 不 包括 P; 时 ( 即 LID 
(Pi) 一 ID(P;)] mod 2" € F^ ) . P; 需要 从 其 Overlay 层 路 由 表 中 找 出 一 点 P, € F^ ,将 查找 
任务 转交 给 Pi ,由 Pi 来 继续 完成 查找 任务 。 这 是 一 个 逐步 逼近 的 过 程 。 

再 抽象 一 下 ,P; 到 P, 的 ID 距离 ( 模 NH m, 路 由 实际 上 就 是 用 一 个 数列 对 m 的 线性 
表示 问题 。 

总 结 Chord 的 路 由 条 件 ( 即 条 件 0) ,形式 化 如 下 : 

路 由 过 程 : Chord 标准 路 由 表 为 (a ,az ,…',av), 路 由 P; P; 结 点 时 ,有 [IDCP)) 一 ID 
C(P;) ] mod n 二 m, 要 求 :各 项 的 组 合 之 和 为 ms 路 由 时 选择 的 前 项 大 于 后 项 。 下 面 分 别 介绍 。 


CD 各 项 的 组 合 之 和 是 m HP, m = [Ga * sG) ] 3X HL a; 表示 当前 结 点 路 由 表 
i=} 


的 第 i XE s GO N— ATR o, H1 和 一 1 的 函数 ,m 是 nn Ra sast ,a, 受 约束 条 件 下 的 

(2) 路 由 时 选择 的 前 项 大 于 后 项 。Chord 是 一 种 贪 焚 法 路 由 ,每 一 跳 都 要 求 尽 可 能 大 
地 双 近 目标 结 点 ,因此 在 路 由 表 选 择 上 ,要 求 满足 前 项 大 于 后 项 。 

3. 数学 问题 描述 

我 们 将 Chord 的 路 由 过 程 归结 为 一 个 整数 的 数列 表示 问题 。 

问题 1 路 由 跳 数 优化 问题 。 

给 定 一 个 整数 d 和 一 组 数列 (a1,as，…,a,) ,要求 确 定 一 个 向 量 (ki shoot hn EP ki 
的 取 值 可 为 0, 一 1 或 1, 使 得 : 


d= ad 
i=l 


并 同时 满足 min( >) | ki |) 。 为 了 方便 下 面 叙 述 , 记 为 : min_hops=min (29 | ki |) 


问题 2 路 由 表 结 构 的 优化 问题 。 
在 一 组 数列 (al,az,…，, ar) 下 ,对 于 不 同 的 整数 dj;, 其 平均 最 小 路 由 跳 数 为 


avg(iiü. hops): e (Z3 (min |k: 1) 


m 


关 , 调 整数 列 (ai ,az s san) 25 H AK ££ min(avg(min_hops) | 全 二 jy 
3.3.3 理论 分 析 


首先 分 析 上 述 的 问题 2, 即 路 由 表 构 造 优化 问题 。 为 了 叙述 方便 , 结 点 的 个 路 由 表 项 
中 所 指向 的 结 点 ID 编号 与 本 结 点 的 ID 编号 差 ( 模 M) 分 别 记 为 ai ,az ,…',a,。 直 观 上 来 
看 ,首先 考虑 当 路 由 表 大 小 为 1 时 ,也 即 是 每 个 结 点 仅 有 唯一 的 一 个 路 由 指针 时 ,在 满足 条 
件 (0) 的 情况 下 ,根据 这 个 路 由 表 结 构 每 个 结 点 所 能 路 由 的 ID 距离 为 一 ai a, 和 0, 为 了 保 
证 每 个 结 点 都 能 路 由 到 ,只 有 使 a 二 1, 这 时 可 以 路 由 的 范围 为 [一 1,1]。 

设 : S,— a 十 qz 十 … 十 as(k 宇 1) ,假设 当 路 由 表 大 小 为 时 , 它 所 能 表示 的 满足 条 件 


有 小 显然 ,avg(min_hops) 与 (al saz s% ,an) 相 
4 
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(0) 的 最 大 范围 为 [一 Si Ses 那么 , 当 路 由 表 大 小 为 k 十 1 时 , 它 所 能 表示 的 满足 条 件 (0) 的 
最 大 范围 为 [一 Sia Sea 1; 因为 第 一 步 可 以 先 左 或 右 路 由 到 auos Ab. BAA AEA a, 
à; a, 依次 路 由 到 相应 结 点 ,因此 必须 满足 arya = 2S p41 = 2 Cay Faz te +a.) +1, 0 
图 3-24 所 示 。 


aea ak 


3-24 三 倍数 最 优 说 明示 意图 


根据 分 析 ,容易 得 出 wm =1,oz 王 3,as 一 9，…… 归纳 法 得 出 最 优 路 由 结构 为 三 进 制 。 
引 理 3-4 A-AA (HD) A ay sas nsa, ENB BRE, BPS Aj, A aAa 恒 


k 


BE AGRE m 个 数 按 从 小 到 大 排列 成 一 个 数列 {a(1) al), a(n) } E ACK) = M ali), B]; 


i=l 
a(l) = l anda(j +1) €2AG) +1, 1<j<n-1 (3-30) 
是 该 数列 中 各 数 的 加 减法 组 合 可 以 表示 {一 A(n),…, 一 1,0,1,2,…,A(n)} 范 围 内 的 任意 
数字 的 充 要 条 件 。 

证 明 : 下 面 用 数学 归纳 法 证 明 充 分 性 。 

首先 ,我 们 知道 要 表示 {一 A(w),…, 一 1,0,1,2,…,A(n)) 范 围 内 的 任意 数字 驴 表 示 
{0,1,2,…,A(n)}) 范 围 内 的 任意 数字 ,因为 对 于 数列 {a(1) ,a(2),…,a(n)}) 来 说 ,只 需 改变 
组 合 符号 就 可 以 等 价 表示 其 相反 数 , 因 此 以 下 只 需 证 明 : 式 (3-30) 是 该 数列 中 各 数 的 加 减 
法 组 合 可 以 表示 10,1,2,…,A(n)) 范 围 内 的 任意 数字 的 充分 条 件 即 可 。 

CD 4 i=1 的 时 候 ,a(i)==1 显然 成 立 。 

(2) 假设 i =k 时 引 理 充分 性 成 立 , 即 用 满足 式 (3-30) 的 前 个 路 由 表 项 可 以 路 由 的 ID 
差 范围 W(k) 为 满足 OW (Ch) SA GO H Br BE 

(3) M i=k+1 时 ,要 证 明 的 是 可 以 路 由 到 的 ID 2290 W C +1) OW Ged- DS 
A(CR 十 1) 范 围 内 的 所 有 整数 。 现 分 段 讨 论 如 下 : 

CD 对 于 OSWR+1) LA QOO. ,显然 可 以 由 前 & 个 路 由 表 项 可 以 路 由 到 。 

Q WF AGOW k+) Sak +1). Hl Am LA OW (GO SA GO BT, YE 
换 向 上 向 下 的 路 由 方向 ,可 以 产生 配合 路 由 表 项 a(k 十 1) 使 用 的 反 向 边 为 W(k)' 可 以 是 满 
BE AGO SW G0 «0 的 所 有 整数 。 与 路 由 表 项 a(k 十 1) 一 起 使 用 可 以 得 到 a(k 十 1) 十 W 
Ck)’ ,一 定 可 以 路 由 某 段 连续 范围 的 所 有 整数 。 因 为 a(k 十 1) 2A QD 1. PEDI a CR 3-10 — 
AGO SCA GO +1, UE a R+1) + WR) 产生 的 下 限 为 ec(R 二 1) 一 ACR) ,上 限 为 <CR 十 1) ,所 
以 可 以 路 由 到 A GO <WR+1) Sak HOKIA WH). 

© WF aG-c-D— WC 十 DA(k 十 1), 与 @ 同 理 可 以 得 到 路 由 的 上 下 限 分 别 为 : a(k 十 1) 
十 A(k) 二 A(k 十 1) 和 al(k 十 1)。 因 此 当 i=k 十 1 时 ,定理 充分 性 也 成 立 , 由 数学 归纳 法 知 定 
理 充 分 性 成 立 。 

下 面 证明 必 要 性 。 

CD i=1 时 ,显然 必须 有 距离 为 1 的 路 由 表 项 ; 

(2) i>1 时 , 反 证 之 ,如 果 存在 某 个 K ,使 得 式 (3-30) 不 成 立 , 即 2A (8k) 十 1 二 a(k 十 1)， 
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则 路 由 项 ACA) +1 不 能 用 前 面 的 & 一 1 个 路 由 表 项 路 由 ,又 因为 aGe- D AGO AGO +1 
而 不 能 用 <(& 十 1) 配 合 着 路 由 ,所 以 矛盾 ,因此 必要 性 成 立 。 证 毕 。 

定理 3-5 Chord 环 为 满 环 ,其 上 的 每 个 结 点 的 路 由 表 由 nn 个 互 不 相同 的 结 点 的 ID 号 
组 成 ,这 些 ID 号 与 本 结 点 ID HRN 差 构 成 一 组 数 ( 共 nn 个 ), 将 这 个 数 按 从 小 到 大 排列 


k 


成 一 个 数列 {a(1) ,a(2)，… a(n) } E AGO = » aG).Jt P i M 1$] k, 3 


i=l 


a) =1 Hal} +1) S2AG) +1, j=1,2,…,m—1 (3-31) 
是 该 数列 作为 路 由 表 序 列 可 满足 条 件 (0) 路 由 到 {一 A,,…, 一 1,0,1,…,A,}) 范 围 内 的 任意 
结 点 的 充 要 条 件 。 

证 明 : 根据 引 理 , 即 可 得 证 。 

通过 刚才 的 证 明 已 经 证 明了 路 由 表 构 造 的 最 优化 问题 ,现在 来 考虑 在 这 个 路 由 表 构 造 
下 的 路 由 优化 问题 , 即 问题 1 。 

推论 3-1 将 整数 用 由 序列 {a(1),a(2),…,a(m)})(m 个 整数 ) 加 减 组 合 来 表示 , 设 
M= 》 37 ,其 中 i 从 1 到 m, 则 有 三 种 情况 : 

(OD 若 M<n, XB, 

(2) € M 二 n, 有 唯一 的 解 ,a(j) 二 3771 ,j= 二 1,2,*…,m; 

(3) X Mn $i, 

WEBB. 

(1) 因为 M<n, 所 以 肯定 存在 一 个 不 能 表达 。 

(2) 因为 M 一 7 一 Sys ,其 中 i 从 1 到 疡 ,存在 性 在 前 面 定理 已 经 给 出 了 ,现在 给 出 
唯一 性 证 明 ( 反 证 法 ) : 

假设 存在 两 种 不 相同 的 序列 { 户 (CD} 和 { 户 (GD) HP. fi G2) = 0.1, K—-1, fp i) =0-1, 
或 一 1, 其 中 i 可 取 从 1 到 m, 使 得 给 定 的 数字 dE€10.1,2,…,3”!), 可 以 表示 为 d = 


六 [np Xa(i)] 并 且 d = SLAW xaG)]. 
由 上 面 两 个 式 子 可 以 得 出 : 
Xo — fa D XaGi)] =0 
WIE bb (a GO ) RT VA VEU H F aC) —3XaG—1) —2X SS atid ho beds 
fi Gf. fo GO AY BCE F8] 35] A (— 1.0. 2-1) ,所 以 可 以 推出 fi CD — fro GO fH BAE 8 E w 


(—2,—1,0, F1, F2) ,aG) —2X Sato 12x bito 因此 在 fi GI f @ AY BU 
范围 下 不 可 能 使 等 式 成 立 MC JE. EA fs GO UBI fo Go HIS] PE PETHE . 
(3) 若 M>n, 有 多 组 解 , 解 为 满足 条 件 (0) 并 且 >)a(i) = ,其 中 i 取 从 1 到 nm 的 所 有 


整数 序列 .证 毕 。 
根据 以 上 的 定理 和 推论 ,可 以 很 容易 的 求 出 对 于 ID 空间 为 ,用 m 个 路 由 表 项 可 以 按 
要 求 路 由 到 任 一 指定 结 点 , 当 z= > 3 站 ,i 从 1 到 mm 的 时 候 , 有 唯一 解 a(i) = 3 站 ,这 个 正 是 
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最 优 的 路 由 表 结 构 。 

根据 推论 3-1 中 三 倍数 路 由 表 表 示 的 唯一 性 可 知 , 只 要 能 够 表达 的 就 是 最 小 的 ,因此 问 
题 1 的 解 就 变 成 给 定 整数 的 数列 受 限 组 合 表示 问题 。 
3.3.4 算法 描述 

一 个 结 点 查询 key 值 ,具体 的 路 由 算法 的 伪 代 码 表示 如 下 : 


routing(node;, key ) 
{ 


1: find(node, , hash(key) ) ; 

} 

find(node,, node; ) 

{ 

1: d= (node, - node; )modS; 

2; if( d>=0 and d< S/2) 

zi NextHop( node, , d) 

4: else if(d>=S/2 and d« S) 

53 NextHop(node, , d - S) 

} 

NextHop( node; , d) 

{ 

$ print node; ; 

2 if(d=0) 

3t return ; 

4: else if( d» 0) 

5 k=find(d) in pos finger table; 

6 if(|d-pos[k]|« 7 |d-pos[k * 1]1) 

7 NextHop( node, , d - pos[k]) ; 
8: else 

9: NextHop(node,.,,d- pos[k * 1]); 
10: else 

11: k= find(d) in neg finger table; 
12: if(|d+ neg[k]|« 7 [d * neg[k * 1]]) 
13: NextHop( node, , d - neg[k]) 
14: else 

i5: NextHop(node..;,d- neg[k + 1]) 
16: endif; 


在 下 一 跳 确 定时 ,通过 判断 d 的 正 负 来 表明 这 次 跳 转 的 方向 ,为 正则 顺 时 针 跳 转 ,为 负 
则 逆 时 针 跳 转 , 即 为 正则 在 正 向 路 由 表 中 选择 ,为 负 则 在 反 向 路 由 表 中 选择 。NextHop 算 
法 中 的 语句 第 2 行 表 明 如 果 距 离 d 为 0, 则 找到 目的 结 点 结束 ; 第 4 一 9 行 表 明 在 正 向 路 由 
表 中 查找 对 应 的 行进 行路 由 ,第 10 一 15 行 表明 在 反 向 路 由 表 中 查找 对 应 的 行进 行路 由 。 第 
5 一 9 行 和 第 11 一 15 行 来 确定 下 一 跳 距离 .判断 d 处 于 {a(1),a(2),…,a(m)}) 中 的 哪个 子 
段 , 即 找到 ,1 二 k 志 mm 一 1,a(k) 三 da(k 十 1) ,其 中 上 可取 1 到 mm 一 1; 在 三 倍数 路 由 表 的 


Chord 路 由 中 , 找 出 i 使 得 a(k) 二 4 二  aG) for all ik, 
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这 是 找到 了 下 一 跳 的 路 由 空间 ,至 于 具体 跳 到 哪个 结 点 上 ,需要 利用 d 与 2) aG) f X 


小 ,如 果 d 大 , 则 要 用 到 a(k 十 1) ,也 即 正 向 路 由 到 a(k 十 1) ,然后 递归 调用 Next Hop Cd — 
a(k+1)), MR d 小 , 则 不 会 用 到 aG-D ALH (80D ,a(2),…,a(k)} 就 可 以 表示 了 ,也 即 
正 向 路 由 到 a Ck) ,然后 递归 调用 NextHop(d 一 a(k))。 

现在 来 举例 说 明 。 满 环 情况 下 ,图 3-25 显示 了 一 个 ID 环 , 设 浆 为 4。 这 个 环 上 有 81 
个 结 点 ,因为 是 满 环 ,每 个 结 点 都 对 应 一 台 机 器 , 结 点 IDO 的 正 向 路 由 表 为 : 第 一 个 路 由 指 
针 指 向 结 点 1, 第 2 个 指向 结 点 3, 第 3 个 指向 结 点 9, 第 4 个 指向 结 点 27, 即 <(1) 一 1,a(2) 一 
3,a(3) 一 9,a(4) 一 27。ID0 希望 查找 ID 为 25 的 结 点 ,其 路 由 过 程 如 图 3-25 所 示 。 也 即 给 
定 一 个 整数 25 ,将 25 用 路 由 表 来 线性 表示 。 因 为 9 二 25 二 27, 并 且 25 之 1 十 3 十 9 所 以 首先 
正 向 路 由 到 a(4) 结 点 ,然后 调用 算法 (参数 为 25 一 27 王 一 2) ,1 一 2 一 3 ,再 判断 2 二 1, 因 此 逆 
时 针 跳 转 到 该 结 点 的 <(2) 结 点 ,然后 递归 调用 算法 (参数 为 一 (2 一 3) 王 1) ,递归 调用 直到 找 
到 该 结 点 。 依 次 跳 的 结 点 序列 为 : 十 27, 一 3, 十 1。 其 中 正 号 表示 顺 时 针 跳 转 , 负 号 表示 逆 
时 针 跳 转 。 三 倍数 路 由 表 结构 时 Chord 路 由 过 程 举 例如 图 3-25 所 示 。 

定理 3-6 在 NN 个 结 点 的 网 络 里 最 优 路 由 表 结 构 下 路 由 的 平均 路 由 跳 数 为 O(logsNN)。 

证 明 : 假设 一 个 结 点 n, 要 解析 一 个 查询 值 K 的 后 继 结 点 的 请 求 。 设 p 是 这 个 值 K 的 
直属 前 驱 结 点 。 下 面 分 析 一 下 到 达 结 点 p 需要 的 查询 次 数 。 

WMR n KEF p WA n 就 要 把 这 个 查询 请 求 交 给 它 自己 800 
的 路 由 表 里 面 与 K 最 接近 的 结 点 。 假 设 结 点 p ATE nodu 
正 向 ( 反 向 类 似 ) 路 由 表 的 第 i 个 间隔 中 , 即 p 在 结 点 的 [(n 十 
3*1) mod S. Gi- 3) mod S] 间 隔 里 面 , 其 中 S 是 该 Chord 环 空 
间 的 大 小 。 那 么 由 于 这 个 间隔 不 是 空 的 (因为 包含 p), 结 点 KY 24 
将 在 这 个 间隔 中 找到 一 个 结 点 foo 与 了 之 间 的 距离 (中 间 ID Y on 
的 数量 ) 至 少 是 371 ,但 是 f 与 p ABATE n 的 第 i 个 间隔 里 面 ， 
即 都 在 结 点 对 的 [2 十 3 一 ,2 十 3 了] 间隔 里 面 ,所 以 它们 的 距离 最 图 3-25 三 倍数 路 由 表 满 环 
多 是 37, WMA FA p tin Bp 更 加 近 , 而 且 f 到 p Chord 路 由 过 程 
的 距离 最 多 是 nn s) p 距离 的 1/3。 

如 果 结 点 每 次 处 理 查 询 与 结 点 p 的 之 间 的 距离 都 能 够 减 2/3 的 话 , 那 么 一 开始 就 能 最 
多 有 3” 了 ,然后 在 m 步 之 内 ,这 个 距离 将 变 为 0, 意 味 着 已 经 到 达 p Y. WE, 


3.3.5 Chord 非 满 环 时 的 分 析 


在 Chord 非 满 环 情况 下 ,发 现 Chord 的 路 由 表 中 存在 着 严重 的 信息 元 余 , 尤 其 是 起 始 i 
比较 小 的 路 由 表 项 ,其 路 由 表 路 由 指针 指向 均 相同 。 

原因 是 对 等 网 络 Chord 中 的 结 点 个 数 相对 于 2” 的 巨大 的 标识 空间 来 说 是 非常 少 的 ， 
这 些 点 基本 上 是 均匀 分 布 的 。 当 路 由 表 起 始 的 几 个 路 由 表 项 中 ,由 于 间隔 较 小 ,这 使 得 相 邻 
的 两 个 甚至 多 个 指针 指向 完全 相同 ,因此 造成 路 由 表 项 重复 。 我们 的 思路 是 利用 在 Chord 
不 满 环 的 情况 下 ,重新 构造 指针 的 指向 ,尽量 减少 元 余 信 息 ,提高 查询 效率 。 

在 Chord 非 满 环 情况 下 的 路 由 过 程 : Chord 标准 路 由 表 为 (aa ,az s a0 ,路 由 从 Pi > 
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P; 结 点 时 ,有 (ID(P;) 一 ID(Pi))mod n= 二 m, 要 求 : 各 项 的 组 合 之 和 是 m. HP m= » 
Cart Aa) XsG)) ,这 里 a; 表示 当前 结 点 路 由 表 的 第 i 项 ,Aa; 为 当前 结 点 的 第 i 项 的 路 由 
修正 项 ,其 值 为 实际 值 和 理论 值 的 差 。s( 让 为 一 个 可 以 取 0、 十 1 和 一 1 的 函数 ,m 是 个 数 
G12 17a, 受 约束 条 件 下 的 线性 表示 。 

通过 分 析 {Aa;} 的 分 布 发 现 , 修 正 项 在 路 由 表 开 始 几 项 取 值 较 大 ,等 路 由 表 指 针 超 过 第 
一 个 实际 结 点 后 ,各 个 结 点 的 Aa; 开始 服从 均匀 分 布 ,这 是 因为 Chord 非 满 环 而 引起 路 由 表 
指向 的 问题 。 

鉴于 Chord 路 由 表 中 存在 严重 的 信息 宛 余 ,为 了 更 有 效 地 提高 路 由 效率 ,采用 4 种 算法 
对 现 有 的 Chord 路 由 表 进 行 调整 。 

利用 S/N 来 对 非 满 环 的 Chord 环 进行 压缩 ,构建 出 新 型 的 路 由 表 结 构 , 对 原来 的 路 由 
表 进 行 改进 。 其 中 ,S Overlay 层 空 间 大 小 , N 为 对 等 网 络 中 结 点 的 个 数 ,可 以 采用 估 
算 值 。 

下 面 是 5 种 重 构 路 由 表 方 法 的 伪 码 。 


1. 路 由 表 重 构 方 法 一 


对 Chord 中 每 个 结 点 的 二 进 制 路 由 表 进 行 重 构 , 但 不 维护 反 向 路 由 表 , 其 中 ml 为 该 重 
构 Chord 的 路 由 表 大 小 , 重 构 方 法 如 下 : 


finger table type finger_table[m1]; 
OverlayID nyID = getOwnOverlayID(); 
for(i=0;i<ml;it+) 
{ 

finger table[i].start = nyID + (S/N) * 2‘; 
} 


2. 路 由 表 重 构 方 法 二 


对 Chord 中 每 个 结 点 的 二 进 制 路 由 表 进 行 重 构 ,同时 维护 反 向 路 由 表 , 其 中 m2 为 该 重 
构 Chord 的 路 由 表 大 小 , 重 构 方 法 如 下 : 


finger_table_type finger_table[m2]; 
OverlayID myID = getOwnOverlayID(); 
for(i=0;i<m2;i++) 
{ 

pos finger table[i].start = myID + (S/N) * 2; 
} 


3. 路 由 表 重 构 方 法 三 

对 Chord 中 每 个 结 点 的 路 由 表 重 构成 三 倍数 路 由 表 , 同 时 维护 反 向 路 由 表 , 其 中 m3 为 
该 重 构 Chord 的 路 由 表 大 小 , 重 构 方 法 如 下 : 

finger_table_type finger_table[m3]; 

OverlayID myID = getOwnOverlayID(); 


for(i=0;i<m3;it+) 


{ 
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pos finger table[i].start = nyID + (S/N) * 3*; 
} 


4. 路 由 表 重 构 方法 四 


对 Chord 中 每 个 结 点 的 三 倍数 路 由 表 重 构成 非 线 性 指数 路 由 表 , 同 时 维护 反 向 路 由 
表 , 其 中 m4 为 该 重 构 Chord 的 路 由 表 大 小 , 重 构 方法 如 下 : 

finger_table_type finger_table[m4]; 

OverlayID myID = getOwnOverlayID(); 

for(i=0;i<m4; i++) 

{ 

pos_finger_table[i]. start = myID + (S/N) x 3'^* ^» t»; 
} 


5. 路 由 表 重 构 方法 五 

对 Chord 中 每 个 结 点 的 三 倍数 路 由 表 重 构成 变 倍数 路 由 表 , 同 时 维护 反 向 路 由 表 , 其 
中 m5 为 该 重 构 Chord 的 路 由 表 大 小 , 重 构 方法 如 下 : 

finger_table_type finger_table[m5]; 

OverlayID myID = getOwnOverlayID(); 

for(i-0;i«m4;i**) 

{ 

pos finger table[i].start = myID + (S/N) * (3 - logio(i)/3)*; 
} 


3.3.6 实验 模拟 


为 了 比较 各 种 路 由 表 重 构 的 性 能 ,模拟 一 个 Chord 网 络 ,对 各 种 优化 后 的 路 由 算法 进 
行 了 测试 ,该 实验 是 在 一 台 PC 机 (CPU 主 频 为 1. 7GHz, 内 存 为 512MB) 上 完成 的 。 
Overlay 层 ID 空间 大 小 设 定 为 1000 000, 其 中 有 1000 个 结 点 ,让 键 值 变化 从 1000 到 
10 000 ,做 独立 的 实验 。 实 验 中 的 每 一 个 结 点 从 系统 中 获得 一 组 随机 的 键 值 ,然后 测量 每 一 
次 查询 的 Hop 跳 数 。 

1. 满 环 情况 下 的 实验 

图 3-26 为 在 满 环 情况 下 双向 Chord 最 优 路 由 表 Bi-Opt-Chord 和 标准 Chord 的 平均 路 
由 跳 数 与 Chord 环 上 路 由 结 点 的 关系 图 。 从 图 3-26 中 可 以 看 出 ,和 标准 Chord 相 比 ,在 满 
环 情况 下 ,最 优 路 由 表 结 构 Bi-Opt-Chord 的 路 由 跳 数 要 少 得 多 。 

2. 非 满 环 情况 下 的 模拟 实验 

对 于 不 同 的 路 由 表 重 构 方法 ,在 不 同 结 点 个 数 时 做 了 模拟 实验 ,得 到 各 种 重 构 方法 下 的 
平均 查询 跳 数 曲线 如 图 3-27 所 示 。 从 图 中 可 以 看 出 ,经 过 重 构 后 的 路 由 跳 数 均 比 标准 的 
Chord 路 由 跳 数 少 。 平均 路 由 跳 数 最 少 的 是 第 4 种 构造 方式 。 

对 于 效果 最 好 的 路 由 表 重 构 方 法 四 ,引入 一 个 系数 K 来 调整 其 指数 ,发 现 K 和 路 由 跳 
数 的 关系 如 图 3-28 所 示 。 在 10 000 个 网 络 结 点 的 时 候 , 考 虑 该 系数 的 变化 对 路 由 跳 数 的 影 
响 。 可 以 看 到 通过 调整 KK, 可 以 减少 网 络 平均 路 由 跳 数 , 重 构 方 法 如 下 : 
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finger table type finger_table[m4]; 
OverlayID myID = getOwnOverlayID(); 
for(i=0;i<m4;it+) 
{ 
pos finger table[i].start = myID + (S/N) * 3** ó»':*? ; 
} 
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图 3-26 标准 Chord 和 Bi-Opt-Chord 随 结 点 个 数 变化 的 路 由 跳 数 比较 
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图 3-27 不 同 重 构 方法 下 的 平均 路 由 跳 数 曲线 


3.4 本 章 小 结 


3.1 节 首 先 说 明了 结构 化 DHT-P2P 系统 能 够 提供 高 效 、 可 靠 的 服务 ,有 着 巨大 的 潜在 
应 用 前 景 。 同 时 ,指出 现实 应 用 中 维护 DHT 拓扑 ,巨大 的 开销 是 不 可 避免 的 ,这 就 限制 了 
它 的 应 用 ,尤其 是 在 高 度 动态 的 环境 下 。 通 过 利用 P2P 网 络 中 的 会 话 异 构 性 ,3. 1 节 提 出 了 
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一 个 创新 的 SHT 模型 来 控制 维护 开销 。SHT 模型 使 用 了 一 个 简单 但 有 效 的 簇 技 术 , 主 要 
的 技术 优点 有 : 

O) 簇 的 管理 方式 是 自然 而 演化 的 ,管理 开销 很 小 。 由 于 它 不 依赖 于 任何 附加 的 前 提 
条 件 , 所 以 它 可 以 直接 应 用 于 现 有 的 DHT 算法 的 改进 。 

(2) 利用 了 网 络 异 构 特性 ,即使 徐 的 大 小 很 小 , 它 也 能 得 到 一 个 近似 理想 的 效果 ,从 而 
对 簇 的 中 心 结 点 要 求 较 低 , 具 有 良好 的 现实 适用 性 。 

仿真 结果 表明 维护 开销 可 以 极 大 地 减少 ,而 查询 失败 率 也 在 很 大 程度 上 也 可 以 减 小 。 
因此 ,采用 SHT 模型 在 控制 拓扑 维护 开销 的 同时 ,进一步 提高 了 DHT-P2P 系统 的 稳定 性 
和 数据 可 用 性 。 

3.2 节 研 究 了 一 种 基于 小 世界 理论 的 概率 缓存 链 技术 ,并 成 功 应 用 于 CAN 中 ,展示 了 
其 对 于 路 由 性 能 提高 具有 的 优良 特性 。 它 的 普遍 意义 在 于 能 够 改进 原 有 的 DHT 系统 路 
He ER DHT 系统 的 路 由 表 中 保留 原 有 的 本 地 短 连 接 ,再 加 入 缓存 长 链 , 以 及 在 路 由 过 
程 中 实施 概率 置换 策略 。 由 此 形成 小 世界 网 络 , 从 而 改进 系统 的 路 由 性 能 。 由 于 缓存 长 链 
接 是 通过 本 地 管理 的 ,这 种 改进 方法 对 系统 的 修改 程度 是 很 小 的 ,维护 也 很 简单 。 这 种 技术 
特别 适合 于 DHT 系统 在 保持 低 的 网 络 连接 度 下 达到 较 好 的 路 由 性 能 ,并 要 求 有 较 低 的 附 
加 网 络 开销 的 情况 。 我 们 用 概率 缓存 模式 来 构造 小 世界 网 络 是 Kleinberg 小 世界 模型 理论 
在 P2P 网 络 中 的 创新 应 用 ,具有 以 下 几 个 特点 : 

(1) 应 用 概率 缓存 模式 来 构造 小 世界 网 络 , 具 有 低 开 销 , 高 容错 ,缓存 具有 本 地 管理 性 ， 
对 于 原 DHT 算法 修改 很 少 而 且 相 当 容 易 配置 等 优点 ,因而 具有 相当 吸引 力 和 可 行 性 的 应 
用 前 景 。 

(2) 采用 概率 缓存 模式 构造 的 DHT 路 由 具有 低 状态 、 高 效率 的 特点 ,是 一 种 较 好 状态 
与 效率 的 折 中 ,并 且 由 于 采用 概率 算法 ,同时 具有 较 好 的 容错 性 和 负载 均衡 。 

(3) 概率 缓存 置换 受 查询 驱动 的 特性 也 将 使 它 得 益 于 当前 P2P 系统 的 一 些 主流 应 用 如 
资源 共享 。 在 这 些 应 用 里 是 以 信息 查询 为 特征 的 ,因而 ,具有 较 强 的 现实 意义 。 

3.3 节 鉴 于 主机 间 的 TCP 连接 是 双向 的 ,但 是 标准 的 Chord 协议 路 由 只 用 了 边 的 一 个 
方向 ,本 节 利 用 Chord 的 双向 边 来 寻求 路 由 表 结 构 的 优化 。 首 先 给 出 了 Chord 协议 路 由 的 
形式 化 描述 ,将 路 由 过 程 抽象 成 一 个 整数 由 一 个 数列 受 限 的 线性 表示 问题 ,然后 分 析 并 提出 
了 Chord 协议 的 最 优 路 由 表 结 构 , 并 给 出 了 基于 最 优 路 由 表 结 构 的 路 由 算法 ,并 证 明了 
Chord 在 满 环 情况 下 三 倍数 路 由 表 构 造 是 最 优 路 由 表 结 构 。 而 对 于 Chord 不 满 环 的 情况 下 
对 路 由 表 进 行 重 构 , 引 入 了 多 种 重 构 策略 ,并 对 其 进行 了 仿真 实验 ,证 明 在 重 构 后 的 路 由 算 


参考 文献 


[1] Balakrishnan H, Kaashoek M F, Karger D. Morris R, Stoica I. Looking up data in P2P systems. 
Communications of the ACM, 2003. 46(2): 43-48. 

[2] Bhagwan R, Savage S, Voelker G. Understanding availability. In Proc. IPTPS, Berkeley, CA. USA, 
2003.2. 

[3] Saroiu S, Gummadi P K, Gribble S D. A measurement study of peer-to-peer le sharing systems. In 
Proceedings of Multimedia Computing Networking 2002 (MMCN) ,San Jose. CA. USA 2002.1. 


80 


国 等 网 络 、 网 格 计算 与 云 计算 一 一 原理 与 安全 


[11] 


[12] 


[13] 


[14] 


[23] 


[24] 


[25] 


[26] 


Ledlie J, Taylor J,Serban L, Seltzer M, Self-Organization in Peer-to-Peer Systems. In the 10th ACM 
SIGOPS European Workshop. 2002. 
Ratnasamy S, Shenker S, Stoica I. Routing Algorithms for DHTs; Some Open Questions. Electronic 
Proceedings for the 1st International Workshop on Peer-to-Peer Systems (IPTPS’02). 
Hazel S, Wiley B. Achord; A variant of the chord lookup service for use in censorship resistant peer- 
to-peer publishing systems. In Proceedings of the 1st International Workshop on Peer-to-Peer Systems 
K(IPTPS'02) , MIT Faculty Club, Cam-bridge, MA, USA. 2002. 
Wu Z D.Ma F Y.Rao W X. Super-proximity routing in Structured P2P Networks. Journal of Zhejiang 
University SCIENCE, 2004. 5(1); 16-21. 
Liben-Nowell David, Balakrishnan Hari, Karger David. Analysis of the Evolution of Peer-to-Peer 
Systems. ACM Conf. on Principles of Distributed Computing (PODC) , Monterey, CA ,2002,7. 
Mahajan R, Castro M. Rowstron A. Controlling the cost of reliability in peer-to-peer overlays. In 
IPTPS'03,2003,2. 
Sen S, Wang J. Analyzing peer-to-peer traffic across large networks. In: Proc. of ACM SIGCOMM 
Internet Measurement Workshop. 2002. 
Xu Z Y,Min R.Hu Y M. Reducing Maintenance Overhead in DHT Based Peer-to-Peer Algorithms. 
pp. 218-219, Linkpings , Sweden, 2003,9. 
Kleinberg J. The small-world phenomenon: an algorithmic perspective. Cornell Computer Science 
Technical Report 99-1776 , 2000. 
Manku G S,Bawa M, Raghavan P. Symphony: Distributed Hashing in a Small World. In Proceedings 
of the Fourth USENIX Symposium on Internet Technologies Systems (USITS) , Seattle, WA, USA, 
2003,3: 127-140. 
Dahlia Malkhi, Moni Naor, David Ratajczak. Viceroy; A Scalable Dynamic Emulation of the Butter In 
Proceedings of the Twenty-First ACM Symposium on Principles of Distributed Computing (PODC) , 
Monterey, CA, USA ,2002,7; 183-192. 
Milgram S. The small world problem, Psychology Today 1967.1: 61. 
Watts D, Dodds P, Newman M. ; Identity Search in Social Networks. Science 2002; 296. 
Pool I, Kochen M. Contacts influence. Social Networks.1978,1: 1-48. 
Watts D, Strogatz S H. Collective Dynamics of ‘ Small-World’ Networks, Nature, 1998; 393, 
440-442, 
Kemeny J G,Snell J L. Finite Markov Chains. New York: Springer-Verlag, 1976. 
Overnet, http://www. overnet. com. 
Ratnasamy S, Francis P, Hley M, Karp R, Schenker S. A scalable content-addressable network. In 
Proc. of SIGCOMM, ACM.2001,8: 161-172. 
Nima Sarshar, Vwani P Roychowdhury. A Rom Structure for Optimum Cache Size Distributed Hash 
Table (DHT) Peer-to-Peer Design.2002  arXive: cs. NI/0210010. available at http://www. ee. ucla. 
edu/ — nima/Publications/opt cache. pdf. 
Nitesh Ambastha, Inho Baek, Salil Gokhale, Alexer Mohr. A Cache-Based Resource Location 
Approach for Unstructured P2P Network Architectures, Department of Computer Science, State 
University of New York at Stony Brook. Stony Brook. NY. USA, 2003. Available at www. cs. 
sunysb. edu/— csgsc/grc2003/abstract inho 2pg. pdf. 
Tyron Stading, Petros Maniatis, Mary Baker. Peer-to-Peer Caching Schemes to Address Flash Crowds 
Crowds, 1st International Peer To Peer Systems Workshop (IPTPS 2002). 
Kaashoek M F, Karger D R. Koorde: A Simple Degree-optimal Distributed Hash Table. In 
Proceedings of the Second International Workshop on Peer-to-Peer Systems (IPTPS) , Berkeley,CA, 
USA, 20032. 
Prasanna Ganesan,Gurmeet Singh Manku. Optimal Routing in Chord. Proc. SODA 2004. 


[31] 


[32] 


[33] 


[34] 


[35] 


[36] 


81 
第 3 章 — M 


Stoica I, Morris R, Karger D, Kaashoek M F, Balakrishnan H. Chord; A scalable peer-to-peer lookup 
service for internet applications. ACM SIGCOMM.2001. 

Gnutella. http; //gnutella. wego. com. 

LARKE I,SBERG O, WILEY B,HONG T. Freenet: A Distributed Anonymous Information Storage 
Retrieval System. ICSI Workshop on Design Issues in Anonymity Unobservability, 2000, 7. 

Zhuang S Q,Zhao,B Y Joseph A D, Katz R H, Kubiatowicz J D. Bayeux: An architecture for scalable 
fault-tolerant widearea data dissemination. In Proceedings of the 11th International Workshop on 
Network Operating System Support for Digital Audio Video, ACM,2001,6. 

Weatherspoon H, Wells C. Eaton P R.Zhao B Y. Kubiatowicz J D. Silverback: A global-scale archival 
system. ACM SOSP.2001. 

Kubiatowicz J,Bindel D, Chen Y, Eaton P,Geels D. Gummadi R, Rhea S, Weatherspoon H, Weimer 
W, Wells C, Zhao B. OceanStore; An architecture for global-scale persistent storage. In Proceedings 
of ACM ASPLOS, ACM, 2000,11. 

Zhao B, Kubiatowicz K, Joseph, A. Tapestry: An infrastructure for fault-resilient wide-area location 
routing. Technical Report UCB//CSD-01-1141, University of California at Berkeley, 2001,4. 
Druschel P,Rowstron A. Pastry: Scalable, distributed object location routing for large-scale peer-to- 
peer systems. ACM SIGCOMM, 2001. 

Stoica I, Morris R, Karger D, et al. Chord; A scalable peer-to-peer lookup service for internet 
applications. ACM SIGCOMM, 2001. 

Fuhr N, Hartmann S, Knorz,G, Lustig G,Schwantner M, Tzeras K. AIR/X—a rule-based multistage 
indexing system for large subject fields. In Proceedings of RIAO -91, 3rd International Conference 
“Recherche d’ Information Assistee par Ordinateur" . Barcelona, Spain,1991; 606-623. 


第 4 章 对 等 网 络 信息 检索 


4.1 基于 分 类 器 融合 的 对 等 网 络 文 档 分 类 算法 研究 


4.1.1 引言 


在 对 等 网 络 信息 检索 中 关键 的 一 个 操作 就 是 如 何 将 结 点 所 拥有 文档 进 
行 索 引 (发 布 ), 在 典型 的 对 等 网 络 中 数据 资源 分 布 在 各 个 独立 的 结 点 上 ,如 
何 高 效 地 索引 这 些 数据 信息 资源 ,对 资源 的 查找 ,检索 会 产生 重要 影响 。 为 
了 从 文档 的 发 布 和 索引 角度 来 提高 效率 、 效 果 , 采 用 分 类 后 发 布 的 方法 来 节 
省 发 布 开销 ,而 此 时 分 类 的 精度 将 直接 影响 到 发 布 的 效果 与 质量 ,因此 本 章 
对 对 等 网 络 中 文档 的 分 类 问题 进行 研究 。 分 类 算法 一 方面 可 以 用 在 文档 发 
布 上 , 另 一 方面 可 以 用 在 用 户 的 模式 确定 上 。 文 本 分 类 的 精度 将 直接 影响 分 
类 发 布 的 效率 和 用 户 模式 的 确定 ,在 本 章 中 ,首先 给 出 常见 的 分 类 算法 ,然后 
对 SVM 进行 改进 ,提出 了 SLMBSVM 模型 ,接着 针对 于 现 有 分 类 算法 分 类 
精度 不 高 的 问题 ,利用 分 类 器 融合 的 思想 将 SLMBSVM 和 kNN 相 结 合 ， 
出 了 m-SLMBSVM-KNN 分 类 算法 。 


4.1.2 文本 分 类 问题 描述 


简单 地 说 ,自动 文本 分 类 系统 的 任务 是 : 在 给 定 的 分 类 体系 下 ,根据 文本 
的 内 容 自 动 确定 文本 关联 的 类 别 。 它 可 以 形式 化 的 描述 为 : 已 知 一 个 文档 集 
合 了 ={d ds,…,du} 以 及 预定 义 类 集合 C= (e ,cs tcu) ,文本 分 类 就 是 
要 根据 每 个 文本 文档 以 的 特征 信息 ,由 计算 机 自动 地 为 序 偶 二 di c; € DX 
C 赋 一 个 二 元 布尔 值 CTrue 或 False) 的 过 程 。 这 里 ,如 果 将 布尔 值 True 赋予 
IA AH d; ,cj 二 ,就 意味 着 将 文本 文档 d; 分 配 到 类 别 c; 中 ; 相反 的 ,如 果 将 
布尔 值 False BCT- A573 8 — d; ,c 二 ,就 意味 着 文本 文档 不 属于 类 别 c;。 而 
如 果 在 单 类 别 分 类 中 , 它 还 可 以 简化 地 表示 为 一 个 函数 映射 , 即 B:D 5C ,其 
表示 把 文档 确定 地 分 为 某 一 类 。 也 即 ,文本 分 类 这 个 映射 过 程 可 以 是 一 一 映 
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射 , 也 可 以 是 一 对 多 的 映射 。 通 过 给 定 的 标识 样本 的 信息 , 找 出 文本 分 类 的 映射 规则 , 当 遇 
到 新 文本 时 ,根据 该 规则 ,可 以 确定 新 文本 的 类 别 。 


4.1.3 文本 分 类 的 一 般 流程 


通常 情况 下 ,构造 自动 文本 分 类 器 需要 经 过 文本 (文档 ) 表 示 特征 选择 .训练 学 习 机 器 、 
性 能 评价 这 几 个 阶段 ,各 阶段 之 间 还 可 能 存在 反馈 指导 环节 。 图 4-1 描述 了 从 机 器 学 习 的 
角度 构造 自动 文本 分 类 器 的 一 般 流 程 。 

所 谓 的 向 量 空间 模型 就 是 给 定 一 个 文本 文档 d=d(zoz,…zr), 项 六 可 以 在 文档 的 
不 同位 置 重复 出 现 。 为 了 简化 问题 ,通常 不 考虑 项 ti 在 文档 中 出 现 的 先后 次 序 并 要 求 项 
互 异 ,这 时 可 以 把 4 ote enm ot, 看 成 一 个 r 维 的 坐标 系 ,而 wr ,ws，,… ,rw, 为 相应 的 坐标 值 ,这 
FÉ d Cun ,tws,… ,tw,) 可 被 看 成 是 维 空间 中 的 一 个 向 量 , 称 d Cun ,ws ，,… ,vw,) 为 文档 d 的 向 
量 表 示 , 如 图 4-2 所 示 。 


中 /英文 分 词 
文档 表示 


一 一 一 | ”特征 选择 


样本 文档 
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一 一 训练 分 类 器 
性 能 评估 
图 4-1 自动 文本 分 类 流程 图 4-2 向 量 空间 模型 


1. 分 词 

与 英文 分 词 相 比 ,中 文 分 词 难度 较 大 。 现 有 的 中 文 分 词 算 法 可 分 为 三 大 类 : 基于 字符 
串 匹 配 的 分 词 方 法 、 基 于 理解 的 分 词 方 法 和 基于 统计 的 分 词 方 法 。 基 于 字符 串 匹配 的 分 词 
方法 是 按照 一 定 的 策略 将 待 分 析 的 汉字 串 与 一 个 词典 中 的 词 条 进行 配 , 若 在 词典 中 找到 某 
个 字符 串 , 则 匹配 成 功 (识别 出 一 个 词 ) 。 按 照 扫 描 方向 的 不 同 , 串 匹配 分 词 方法 可 以 分 为 正 
向 匹配 和 逆向 匹配 ; 按照 不 同 长 度 优先 匹配 的 情况 ,可 以 分 为 最 大 (最 长 ) 匹 配 和 最 小 (最 
短 ) 匹 配 ; 常用 的 几 种 机 械 分 词 方法 有 正 向 最 大 匹配 法 、 逆 向 最 大 匹配 法 和 最 少 切 分 方法 。 
还 可 以 将 上 述 各 种 方法 相互 组 合 ,例如 ,可 以 将 正 向 最 大 匹配 方法 和 逆向 最 大 匹配 方法 结合 
起 来 构成 双向 匹配 法 ; 基于 理解 的 分 词 方法 是 通过 让 计算 机 模拟 人 对 句子 的 理解 ,达到 识 
别 词 的 效果 ,其 基本 思想 就 是 在 分 词 的 同时 进行 句法 .语义 分 析 , 利 用 句法 信息 和 语义 信息 
来 处 理 歧义 现象 。 目 前 基于 理解 的 分 词 系统 还 处 在 实验 阶段 。 基 于 统计 的 分 词 方法 只 需 对 
语 料 中 的 字 组 频 度 进行 统计 ,不 需要 切 分 词典 ,因而 又 称 无 词典 分 词法 或 统计 取 词 方法 。 这 
种 方法 也 有 一 定 的 局 限 性 ,会 经 常 抽出 一 些 共 现 频 度 高 ,但 并 不 是 词 的 常用 字 组 。 实 际 应 用 
的 统计 分 词 系统 都 要 使 用 一 部 基本 的 分 词 词典 (常用 词 词典 ) 进 行 串 匹 配 分 词 。 

2. 文本 的 表示 

构造 文本 分 类 器 的 首要 任务 就 是 将 文本 文档 性 质 ( 文 本 特征 ) 定 量 地 表示 出 来 ,从 而 将 
实际 的 文本 文档 映射 成 文本 分 类 器 及 其 构造 系统 可 以 处 理 的 数据 。 
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传统 IR 领域 中 文本 分 类 一 般 考虑 文档 的 内 容 , 基 于 “术语 -空间 ”( 如 向 量 空间 模型 
VSM KKR ,即将 文档 表示 成 权重 向 量 ,每 个 权重 向 量 表 示 一 个 特征 项 的 权重 ,通过 计算 待 
分 类 文本 权重 向 量 与 预定 义 类 权重 向 量 的 相似 度 决定 待 分 类 文本 属于 哪个 类 。 权 重 向 量 的 
计算 一 般 采用 tfXidf 方 法 。 

在 确定 项 的 权重 时 ,需要 遵循 的 一 个 基本 原则 是 : 为 较 重要 的 项 赋予 较 大 的 权重 ,以 强 
调 它们 在 文档 中 的 重要 程度 。 目 前 主要 确定 项 的 权重 的 方法 通常 采用 统计 方法 , 即 根据 文 
本 的 统计 信息 (如 词 频 ) 来 确定 项 的 权重 。 

TF(Term Frequency) 表 示 一 个 Term 与 某 个 Document 的 相关 性 。 公 式 为 这 个 Term 
在 Document 中 出 现 的 次 数 除 以 该 Document 中 所 有 Term 出 现 的 总 次 数 . 

TFG; +d) 


[ >), TFG; +d)? 
其 中 ,j 为 文档 d 中 Term 的 个 数 。 


TF-IDF(Term Frequency-Document Inverse Frequency) 的 概念 就 是 一 个 特定 条 件 下 、 
关键 词 的 概率 分 布 的 交叉 炉 (Kullback-Leibler Divergence) 。 


TFG; ,dlog (TE; ) 


m= 2 
fd, [TRealoe( det) 

其 中 ,i x Pid 中 Term 的 个 数 。 

向 量 空间 模型 已 经 在 信息 检索 ,文本 分 类 以 及 其 他 相关 领域 得 到 了 广泛 而 成 功 的 应 用 ， 
本 书 也 统一 使 用 这 一 模型 表示 文本 文档 的 特征 。 

3. 特征 选择 

对 于 一 般 的 文本 文档 集合 来 说 ,用 以 表示 文本 特征 的 项 通常 可 以 达到 几 千 个 甚至 几 
万 个 ,对 应 到 向 量 空间 模型 ,每 个 文本 特征 向 量 的 维 数 将 高 达 几 千 甚 至 几 万 维 。 对 于 许 
多 机 器 学 习 算 法 来 说 ,处 理 如 此 高 维 的 数据 是 十 分 困难 的 ,甚至 是 不 可 能 的 。 因 此 ,对 文 
本 特征 加 以 选择 ,以 降低 文本 特征 向 量 空间 的 维 数 是 必要 的 。 所 谓 特征 选择 就 是 从 最 初 
的 r 个 特征 中 选取 x (x 过) 个 特征 ,而 这 x 个 特征 可 以 更 为 简洁 地 表示 文本 文档 的 内 容 。 
如 常用 的 过 滤 停 用 词 和 取 词 根 的 方法 ,实际 上 就 是 特征 选择 ,只 不 过 比较 简单 。 其 他 主 
要 的 特征 选择 标准 还 有 : DIA 关联 因子 (DIA Association Factor)" ,-F 7; £35 (Chi-Square 
Tes) 79 NGL 系数 (NGL Coefficient) | fi E. 2$ (Information Gain)" | f E (Mutual 
Information) 7 4% , 

4. 训练 分 类 器 

自动 文本 分 类 的 过 程 一 般 来 说 包括 两 个 步骤 : 一 是 训练 过 程 ,即将 训练 样本 (已 标识 为 
某 一 类 别 的 文档 ) 通 过 选 定 的 特征 表示 方法 表示 成 有 监督 学 习 算法 可 以 直接 使 用 的 特征 向 
量 序列 ,然后 学 习 算 法 ( 即 分 类 算法 ) 对 这 个 序列 进行 学 习 , 生 成 分 类 器 ; 二 是 经 过 训练 过 程 
后 ,系统 就 可 以 用 于 对 实际 文档 进行 分 类 ,这 就 是 测试 过 程 , 即 用 构造 好 的 分 类 器 将 未 知 类 
别 的 测试 文档 标识 为 某 一 类 别 ,实现 自动 分 类 的 过 程 。 

5. 评估 方法 

在 信息 检索 研究 领域 ,最 常用 的 评估 指标 为 基于 判决 损失 的 度量 方法 。 主 要 包括 错误 


wi 一 


85 
第 4 章 ”对 等 网 络 信息 检 


率 (Error Rate, 记 为 Err) 、 查 准 率 (Precision, 记 为 Pre) 、 查 全 率 (Recall, 记 为 Rec) 等 。 
查 准 率 是 所 有 判断 的 文本 中 与 分 类 标号 结果 一 致 的 文本 所 占 的 比例 : 


zo 、_ 分 类 的 正确 文本 数 
BEM (Pre) 一 SUPERI CAR 


查 全 率 是 标号 分 类 结果 应 有 的 文本 中 分 类 系统 结果 一 致 的 文本 所 占 的 比例 : 


4 (Rec) — 分 类 的 正确 文本 数 
查 全 率 (Rec) Tfi. 


查 准 率 和 查 全 率 反映 了 分 类 质量 的 两 个 不 同方 面 , 但 由 于 在 发 布 过 程 中 主要 考虑 的 是 
分 类 类 别 的 差错 与 否 , 所 以 ,在 这 里 主要 考虑 分 类 精度 问题 。 

将 两 类 错误 率 分 别 看 待 ,采用 正 样本 的 识别 率 (Pos_Error_Rate) 和 负 样 本 的 识别 率 
(Neg_Error_Rate) 以 及 整体 错误 率 (Total_Error_Rate) 来 评价 两 类 别 分 类 器 的 性 能 。 


> _ __FN 
Pos_Error_Rate = TP EN 
> u FP 
Neg Error Rate — TN {FP 
FN +FP 


Total_Error_Rate = 


TP+FN+TN+ FP 

其 中 ,TP 是 正 类 样本 并 被 正确 分 类 的 样本 个 数 ; TN 是 负 类 样本 并 被 正确 分 类 的 样本 个 
数 ; FP 是 负 类 样本 并 被 错 分 为 正 类 的 样本 个 数 ; FN 是 正 类 样本 并 被 错 分 为 负 类 的 样本 
个 数 。 


4.1.4 现 有 的 文本 分 类 算法 简介 


文本 自动 分 类 (ATC) 作 为 TR. 领域 中 的 重要 的 部 分 ,已 经 受到 越 来 越 多 研究 者 的 重视 。 
目前 出 现 的 ATC 方法 主要 有 以 下 几 种 。 

1. 简单 向 量 距 离 分 类 法 

该 方法 的 分 类 思路 十 分 简单 ,根据 算术 平均 为 每 类 文本 集 生 成 一 个 代表 该 类 的 中 心 向 
量 ,然后 在 新 文本 来 到 时 ,确定 新 文本 向 量 ,计算 该 向 量 与 每 类 中 心 向 量 间 的 距离 (相似 度 )， 
最 后 判定 文本 属于 与 文本 距离 最 近 的 类 。 具 体 思路 是 : 首先 计算 每 类 文本 集 的 中 心 向 量 ， 
然后 计算 新 到 达 的 文本 特征 向 量 和 每 类 中 心 向 量 间 的 相似 度 , 将 文本 分 到 相似 度 最 大 的 那 
个 类 别 中 。 

2. 贝 叶 斯 分 类 (Bayesian Classification) 

目前 ,在 经 典 贝 叶 斯 理论 的 基础 上 提出 的 朴素 贝 叶 斯 (Naive Bayesian)、 贝 叶 斯 网 络 
(Bayesian Network) 以 及 贝 叶 斯 神经 网 络 (Bayesian Neural Network) 等 方法 ,已 经 在 很 多 领域 
上 得 到 了 成 功 的 应 用 。Mitchell 四 将 朴素 贝 叶 斯 应 用 到 文本 分 类 中 ; Lewis 和 Ringuette *! 还 有 
Moulinier9 各 自 独立 使 用 朴素 贝 叶 斯 方法 对 路 透 社 文档 测试 集 作 了 分 类 效果 评估 。 

贝 叶 斯 分 类 的 基本 思路 是 计算 文本 属于 类 别 的 概率 ,文本 属于 类 别 的 概率 等 于 文本 中 
每 个 词 属于 类 别 的 概率 的 综合 ,比较 新 文本 属于 所 有 类 的 概率 ,将 文本 分 到 概率 最 大 的 那个 
类 别 中 。 

3. 决策 树 分 类 

决策 树 分 类 是 以 实例 为 基础 的 归纳 学 习 算法 . 它 着 眼 于 从 一 组 无 次 序 .无 规则 的 事例 中 
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推理 出 决策 树 表示 形式 的 分 类 规则 。 其 中 最 著名 就 是 ID3 算法 。 这 一 经 典 算法 的 基本 思想 
是 香农 的 信息 论 。ID3 本 质 上 是 贪 禁 算法 ,使 用 了 基于 焙 的 信息 增益 来 进行 分 类 过 程 中 的 
属性 选择 。 在 ID3 的 基础 上 ,又 提出 了 改进 的 C4.5 和 CS 方法 co ,以 及 CART Ail Assistant 
决策 树 方法 。 

Moulinier 和 Ganascia™! , Quinlan"! , Mitchell) 分 别 将 决策 树 应 用 到 文本 分 类 中 ， 
Lewis 和 Ringuette[9 在 路 透 社 文档 集 上 作 了 决策 树 分 类 的 效果 评估 ; Moulinier 使 用 
C4.5 算法 对 路 透 社 文档 集 作 了 分 类 效果 评估 。1999 年 ,美国 Carnegie Mellon 大 学 的 
Kamal Nigam 和 Just 研究 中 心 的 Andrew McCallum 等 人 提出 了 一 种 基于 最 大 炉 的 文本 分 
类 方法 ,并 且 与 贝 叶 斯 系列 分 类 方法 进行 了 评估 比较 。 

4. 神经 网 络 (Neural Network) 

早 在 1995 年 , Wiener 等 就 将 神经 网 络 应 用 于 文本 主题 的 自动 识别 0 ;1997 年 ,Ng 等 
人 在 ACM SIGIR 上 对 神经 网 络 在 文本 分 类 上 的 应 用 作 了 综述 9 ; 2000 年 ,新 加 坡 国立 大 
学 的 Ji He 等 人 将 自 适应 共振 联想 映射 模型 (Adaptive Resonance Associative Map， 
ARAM) 应 用 于 Web 中 文 文档 自动 分 类 中 。 以 上 三 个 研究 小 组 在 研究 中 都 使 用 路 透 社 测 
试 文档 集 进 行 了 评估 。 美 国 施乐 公司 (Xerox) 的 PARC 研究 小 组 开发 的 Nnet. PARC 系 
统 5 在 文本 分 类 中 对 每 个 类 别 分 别 使 用 独立 的 神经 网 络 进行 非 线性 映射 ,他 们 也 使 用 路 透 
社 测 试 文档 集 进行 了 评估 。2002 年 ,美国 俄亥俄 大 学 的 Miguel E. Ruiz I FRK T feih 
成 果 ,他们 提出 了 一 种 专家 网 络 的 分 级 混合 模型 (Hierarchical Mixture of Experts Model, 
HMEM) 。 在 该 模型 中 ,他 们 使 用 分 而 治之 的 原则 ,得 到 一 组 分 级 的 神经 网 络 , 从 而 获得 最 
终 的 文本 分 类 器 。 这 实际 上 是 一 种 通过 神经 网 络 集成 来 扩展 泛 化 能 力 的 思想 。 

5. 线性 最 小 二 乘 拟 合 (Linear Least Squares Fit,LLSF) 

本 质 上 这 是 一 种 在 输入 输出 之 间 的 映射 方法 。 在 该 方法 中 ,训练 数据 集 被 表示 为 输入 
输出 向 量 对 。 其 中 输入 是 基于 传统 的 向 量 空间 模型 表示 ,输出 使 用 了 带 二 进 制 权重 的 类 别 
表示 ,然后 使 用 多 变量 回归 技术 作 最 小 二 乘 拟 合 ,得 到 计算 结果 。Yang Y. 和 Chute"? jr 
提出 该 方法 。 

6. 粗糙 集 (Rough Set) 

十 余年 来 粗糙 集 理论 已 经 得 到 广泛 的 研究 与 应 用 ,在 对 高 维 数据 的 自动 分 类 上 HUBS E 
有 其 独到 之 处 。 其 主要 的 特点 就 是 可 以 将 高 维 文本 模型 通过 Rough 集 属性 约 简 (RSAR) 转 
化 为 包含 少量 前 提 条 件 的 规则 组 成 的 规则 库 。 

英国 Edinburgh 大 学 的 Alexios Chouchoulas 教授 等 人 基于 粗糙 集 理论 对 文本 分 类 进 
行 了 研究 。 在 他 们 实现 的 系统 中 ,对 电子 邮件 的 自动 分 类 进行 了 测试 ,并 比较 了 在 选取 不 同 
训练 集 的 情况 下 规则 库 的 分 类 能 力 。 可 以 认为 ,文本 分 类 很 大 程度 上 依赖 于 获取 描述 文件 
的 关键 词 集合 。 可 以 利用 Rough 集 方法 来 降低 关键 词 集 合 的 维 数 ,而 又 保持 关键 词 集 合 中 
足够 的 信息 。 采 用 粗糙 集 技术 是 有 效 的 ,而 且 与 具体 语种 无 关 。 这 既是 优点 也 是 缺点 ,在 处 
理 大 规模 文本 时 ,如果 能 利用 一 些 相 关 的 先前 的 经 验 知识 ,必然 能 提高 分 类 效率 和 精度 。 

7. 支持 向 量 机 (Support Vector Machine. SVM) 


现 有 的 很 多 分 类 学 习 算法 一 般 是 基于 传统 统计 学 理论 的 。 传 统统 计 学 研究 的 是 样本 数 
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目 趋 于 无 穷 大 时 的 渐 近 理论 ,但 在 实际 问题 中 ,样本 数 往 往 是 有 限 的 ,造成 一 些 理论 上 很 优 
秀 的 学 习 方 法 在 实际 中 却 表 现 得 不 尽 如 人 意 。 因 此 国内 外 有 关 学 者 采用 了 基于 支持 向 量 机 
SVM(Support Vector Machine) 的 分 类 方法 55 , 它 的 理论 基础 是 研究 小 样本 统计 估计 和 预 
测 的 统计 学 习 理 论 。 已 有 的 实验 表明 在 文本 分 类 中 SVM 方法 具有 较 好 的 分 类 精度 。 

支持 向 量 机 的 基本 思想 是 使 用 简单 的 线性 分 类 器 划分 样本 空间 。 对 于 在 当前 特征 空间 
中 线性 不 可 分 的 模式 , 则 使 用 一 个 核 函数 把 样本 映射 到 一 个 高 维 空间 中 ,使 得 样本 能 够 线性 
可 分 。 

1997 年 ,德国 的 Joachime 首次 将 SVM 成 功 应 用 于 大 规模 文本 自动 分 类 中 59 , 它 清楚 
地 表明 ,以 小 样本 空间 学 习 为 出 发 点 的 SVM 同样 可 以 应 用 于 大 规模 样本 集 。 美 国 
Stanford 大 学 的 Simon Tong 和 Daphne Koller" 将 基于 缓冲 池 的 主动 学 习 算 法 (Pool- 
based Active Learning) 引 入 文本 分 类 应 用 中 。 他 们 使 用 的 测试 数据 集 分 别 是 路 透 社 测试 
文档 集 以 及 Ken Lang 的 新 闻 组 测试 文档 集 ; Greg Schohn 与 David Cohn"? 同样 就 主动 学 
习 与 支持 向 量 机 的 结合 问题 做 了 研究 。 


4.1.5 支持 向 量 机 原理 


支持 向 量 机 主要 用 于 解决 二 分 类 模式 识别 问题 。 其 基本 思想 可 用 图 4-3 所 示 的 两 维 情 

况 说 明 。 图 中 , 圆 点 和 方 点 代表 两 类 样本 ,HH 为 分 类 线 ,Hi、H, 分 别 为 过 各 类 中 离 分 类 线 

最 近 的 样本 且 平 行 于 分 类 线 的 直线 ,它们 之 间 的 距离 称 为 分 类 间隔 (Margin)。 所 谓 最 优 分 

类 线 就 是 要 求 分 类 线 不 仅 能 将 两 类 正确 分 开 ( 训 练 错误 率 为 0) ,而且 使 分 类 间隔 最 大 。 分 

类 线 方程 为 x，w 十 b= 二 0, 可 以 对 它 进行 归 一 化 ,使 得 对 线性 可 分 的 样本 集 (xi,yi) ,i 二 1,…， 
n,x€ R^", y€ (1, —1) ,满足 

yil(we x) +b] —-120, i=l, sn (4-1) 


此 时 分 类 间隔 等 于 2/ | || ,使 间隔 最 大 等 价 于 使 | w 上? 最 小 。 满足 式 (4-1) 且 使 于 | w Il? 


最 小 的 分 类 面 称 为 最 优 分 类 面 ,Hi、H, 上 的 训练 样本 点 称 为 支持 向 量 。 
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图 4-3 支持 矢量 机 产生 的 线性 决策 面 


SVM 学 习 的 目的 就 是 要 构造 一 个 判别 函数 ,将 两 类 模式 尽 可 能 正确 地 区 分 开 来 。 
SVM 主要 有 三 种 模式 : 线性 可 分 、 线 性 不 可 分 和 曲面 分 离 。 所 谓 线 性 可 分 是 指 存在 一 个 超 
平面 ,该 平面 可 以 把 训练 集 按 类 别 一 分 为 二 。 线 性 不 可 分 是 指 训练 集 是 线性 不 可 分 的 ,或 事 
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先 不 知道 它 是 否 线性 可 分 ,这 时 通常 在 超 平面 上 引入 一 个 因子 来 控制 样本 偏差 与 泛 化 能 力 
之 间 的 平衡 。 超 平面 的 分 类 毕 况 有限 .因此 有 时 需要 引入 曲面 来 分 割 训练 集 。 这 三 种 模式 
的 基本 原理 基本 类 似 ,本 文 主要 是 论述 在 线性 可 分 模式 下 的 SVM。 图 4-4 是 支持 矢量 机 从 
原 空间 到 特征 空间 的 映射 关系 。 


特征 空间 


4-4 支持 矢量 机 从 原 空间 到 特征 空间 的 映射 关系 


利用 Lagrange 优化 方法 可 以 把 上 述 最 优 分 类 面 问题 转化 为 其 对 偶 问 题 , 即 在 约束 
条 件 


Dye: =0 (4-2a) 
i=l 
All 
205 i1, (4-2b) 
下 对 w 求解 下 列 函数 的 最 大 值 : 
Q(a) = Dat Y aayy G; . xj) (4-3) 
i-i ij-1l 


a, 为 原 问 题 中 与 每 个 约束 条 件 即 式 (4-1) 对 应 的 Lagrange 乘 子 。 这 是 一 个 不 等 式 约束 下 二 
次 函数 寻 优 的 问题 ,存在 唯一 解 。 容 易 证 明 , 解 中 将 只 有 一 部 分 (通常 是 少 部 分 )a; 不 为 零 ， 
对 应 的 样本 就 是 支持 向 量 。 解 上 述 问 题 后 得 到 的 最 优 分 类 函数 是 


f(x) = sgn{(w* x) +6) = sgn{ Dya; yi Gs + x) +b } (4-4) 
i=l 


式 中 的 求 和 实际 上 只 对 支持 向 量 进行 。4" 是 分 类 阔 值 ,可 以 用 任 一 个 支持 向 量 (满足 式 (4-1) 
中 的 等 号 ) 求 得 ,或 通过 两 类 中 任意 一 对 支持 向 量 取 中 值 求 得 。 

对 非 线性 问题 ,可 以 通过 非 线性 变换 转化 为 某 个 高 维 空间 中 的 线性 问题 ,在 变换 空间 求 
最 优 分 类 面 。 在 最 优 分 类 面 中 采用 适当 的 内 积 函 数 K(x;,x;) 就 可 以 实现 某 一 非 线性 变换 
后 的 线性 分 类 ,而 计算 复杂 度 却 没有 增加 ,此 时 目标 函数 即 式 (4-3) 变 为 


Qa) = Ma — DamsyiyK Geiss) (4-5) 
而 相应 的 分 类 函数 也 变 为 
f(x) = sgn( Da yiK Gs 30 +b" ) (4-6) 


这 就 是 支持 向 量 机 。 
SVM 有 两 个 特性 : 其 中 一 个 特性 是 可 以 通过 提升 数据 的 维 数 把 线性 不 可 分 的 训练 集 
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变 成 为 线性 可 分 ,另外 一 个 特性 是 决策 平面 只 是 由 那些 刚好 和 决策 面 距离 为 一 一 的 数据 


| ee I 
点 来 决定 ,这 些 数据 点 被 称 为 支持 向 量 。 支 持 向 量 是 训练 集中 用 来 生成 SVM 的 元 素 ,删除 
其 他 数据 点 不 会 影响 算法 的 结果 ( 即 产生 的 决策 平面 (函数 ) 不 变 )。 这 个 特性 是 SVM 与 其 
他 分 类 方法 不 同 之 处 。 


4.1.6 kNN 原理 


KNN 是 著名 的 模式 识别 统计 学 方法 ,该 方法 思想 简单 ,容易 实现 。kNN 算法 本 质 上 是 
一 种 聚 类 算法 ,通过 计算 新 文档 与 相 邻 文档 的 近似 程度 来 判定 所 属 类 别 。kNN 算法 的 基本 
思想 如 下 : 给 定 一 个 测试 文档 ,系统 在 训练 集中 查找 离 它 最 近 的 上 个 邻居 ,并 根据 这 些 邻 居 
的 类 别 来 给 该 文档 的 候选 类 别 评分 ,把 邻居 文档 和 测试 文档 的 相似 度 作为 邻居 文档 所 在 类 
别 的 权重 。 如 果 这 个 邻居 中 的 部 分 文档 属于 同一 个 类 别 , 则 对 属于 该 类 别 的 每 个 邻居 的 
权重 求 和 并 作为 该 类 别 和 测试 文档 的 相似 度 。 通 过 对 候选 类 别 评分 的 排序 ,给 出 一 个 阔 值 ， 
就 可 以 判定 测试 文档 的 类 别 。 

4 C= la «c mcs ARKIVE D= (dy ,ds，,…,d} 表 示 训 练 文档 集合 , 则 kNN 中 的 
决策 规则 可 如 下 表示 : 

yZ) = >) sim di) ydi,c) — 8; 
可 ,ED 
其 中 yd oc) € (0,1) de X Bid, 是 否 属于 分 类 cj Cy — 1 为 是 ,y 一 0 为 否 ); sim, d 
a iR Sc PER VIL Sc Pi; 的 相似 度 ; o; 则 是 二 元 决策 的 阔 值 。 为 了 方便 起 见 , 一 般 采 用 
两 个 向 量 的 夹 角 余弦 作为 两 个 文档 的 相似 度 。 各 个 分 类 的 阔 值 o; 则 是 通过 训练 获得 。 具 
体 方法 是 从 训练 集中 抽取 部 分 文档 来 训练 学 习 这 些 阔 值 。 

KNN 方法 除了 简单 . 易 实 现 以 外 ,与 其 他 分 类 方法 的 一 个 非常 突出 的 不 同 在 于 它 允 许 

文档 可 以 属于 多 个 分 类 。 


4.1.7. SLMBSVM 模型 


与 传统 的 人 工 神经 网 络 不 同 ,支持 向 量 机 是 基于 结构 风险 最 小 化 原理 ,而 神经 网 络 是 基于 
经 验 风险 最 小 化 原理 。 通 俗 地 说 ,所 谓 的 结构 风险 最 小 化 就 是 使 错误 概率 的 上 界 最 小 化 。 与 
神经 网 络 相 比 ,支持 向 量 机 不 仅 结构 简单 ,而 且 各 种 技术 性 能 尤其 是 泛 化 能 力 (Generalization) 
明显 有 所 提高 。 

显然 ,传统 的 SVM 中 两 类 泛 化 误差 是 等 同 对 待 的 ,鉴于 实际 问题 中 两 类 的 错误 损失 往 
往 不 是 相同 的 ,本 节 引 入 了 基于 损失 最 小 化 的 支持 向 量 机 SLMBSVMs 的 数学 模型 。 这 种 
SVM 能 够 针对 于 两 类 问题 的 错误 损失 的 不 同 ,构建 整体 损失 率 最 小 的 SVM。 在 该 数学 模 
型 下 ,系统 将 以 较 高 的 概率 正确 输出 某 一 类 样本 ,而 牺牲 男 一 类 的 正确 率 ,这 是 因为 该 类 的 
错误 损失 较 小 。 其 特点 是 : 四 当 回答 为 正 样本 时 ,该 测试 样本 将 以 接近 于 1 的 概率 属于 正 
类 ; @ 当 回答 为 负 样 本 时 ,该 测试 样本 仍 有 一 定 的 概率 属于 正 类 。 具 体形 式 如 下 ， 
SLMBSVMs 的 最 优 决 策 面 要 使 得 下 式 最 小 : 
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min. lwI*4 636-66 
web. y,=1 y=- 


= min 二 wilt ten Xie Ze) 


y= 
where C = C;,n = C1/C; 
满足 : yi(w* x; -bDZ1—&,. Vi 
&20, Vi 
这 里 C, 和 Cs 是 两 个 反映 错误 损失 的 参数 ,” 为 两 者 的 比值 。 通 过 引入 Lagrange 乘 子 来 解 
决 这 个 最 优化 问题 。 


Llib ep = iw . eed s o»! a) — Pawa —b) -148) — pe, 
y=) »--1 i i 
其 中 参数 满足 以 下 条 件 : 


9L(w,b,é,a, 
(w,b,€,a,8) i prae 0 
aw i 


aL(w,b,é,a,B) 
= gu =0 
2 de y 


IL(w,b ga pD _ (PuB if w= 1 
96; C—a;—fB. if y ——1 


ll 
o 


代 人 参数 后 , 变 为 下 面 的 形式 : 


minQ(a) = L X aa;yiyK Cr+) = Da 
i,j=1 i=l 


满足 : 
X ye: = 0 
i=l 
Oca xnC. if y=1 
Oca XC. if y ——1 


首先 用 一 个 R 平面 上 的 点 来 举例 说 明 以 上 的 SLMBSVM 数学 模型 。 图 4-5 中 方 点 代 
表 类 别 为 负 类 (YY 一 一 1) 而 圆 点 代表 正 类 样本 (Y; 一 1) 。 

SLMBSVM 采用 RBF 作为 其 核 函数 (o 二 0.5), C 值 分 别 取 100 500, 1000 «0 值 取 0. 1, 
0. 2,0. 5,1,5,10 时 其 实验 结果 如 图 4-6 和 图 4-7 所 示 。 其 中 ,两 类 别 的 分 类 器 性 能 指标 的 
评价 采用 正 样本 的 识别 率 (Pos_Error_Rate) 和 负 样 本 的 识别 率 (Neg_Error_Rate) 以 及 整体 
错误 率 (Total_Error_Rate) 来 评价 。 

从 图 4-6 和 图 4-7 中 可 以 看 出 , 随 着 的 增 大 ,会 引起 Pos Error Rate 的 下 降 和 Neg_ 
Error Rate 的 增加 ,这 表明 调节 可 以 取得 一 个 比 传统 的 SVM 更 低 的 整体 错误 率 。 另 外 ， 
选择 合适 的 n 值 ,可 以 调节 当 算法 输出 某 个 类 别 时 的 正确 率 。 

图 4-5 为 随 n ALC 的 取 值 不 同 SLMBSVM 的 分 类 决策 面 的 变化 图 。 表 4-1 列 出 了 
SLMBSVM 模型 关于 泛 化 错误 率 和 整体 泛 化 损失 的 实验 数据 。 
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T 
. 


(a) C=100,n=1 (b) C=100.n=5 (c) C=100,.n=10 


(d) C=500,n=1 (e) C-500,0-5 (£) C=500,n=10 


(g) C=1000,n=1 (h) C=1000,n=5 (i) C=1000,n=10 


4-5 Bën ALC 的 取 值 不 同 SLMBSVM 的 分 类 决策 面 变化 图 


一 上 一 C=100 

——C-200 
C-500 
C-1000 


E] 4-7 泛 化 Neg Error Rate 结果 
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表 4-1 SLMBSVM 算法 的 泛 化 错误 率 和 整体 泛 化 损失 


n=0.1 n—0.2 n=0.5 n=1 n=2 n=5 n=10 

1.6 2.0 2.6 2.4 2.5 EF 1.6 
96.4 82.1 21.4 7.1 3.6 0 0 

C=100 |0 0 32.1 28.6 28.6 32.2 32.2 
0. 0482 0.0821 0.214 0.1785 0.179 0.1610 0.1610 
32(57. 194) |34(60. 7%) |37 (66. 1%) |31(55. 4%) |26(46. 4%) |24(42. 9%) | 23(41. 194) 
1.6 2.0 2.5 2.7 2.4 1,9 1.9 
92.9 78.6 21.4 7.1 3.6 0 0 

C=200 |0 0 28.6 25 25 32.2 32.2 
0. 04645 0.0786 0.1965 0. 1605 0. 1610 0.1610 0. 1610 
33(58. 9%) |35(62. 526) |37(66. 1%) |30(53. 6%) |26(46. 4%) | 24(42.9%) | 22(39.3%) 
1.8 1.9 2.7 2.3 2.3 1.8 1.7 
89.3 78.6 17:9 3.6 0 0 0 

C=500 |0 0 28.6 25 25 28.6 28.6 
0. 04465 0.0786 0.18775 0.143 0. 1250 0. 1430 0. 1430 
32(57. 1%) |34(60. 7%) |37 (66. 1%) |29(51. 8%) |25(44. 6%) |23(41. 1%) | 22(39. 394) 
1*4 2.0 2.4 2.6 2.2 4.7 1.6 
85.7 71.4 14.3 3.6 0 0 0 

C=1000 |0 0 28.6 25 21.4 28.6 28.6 
0. 04285 0.0714 0.17875 0. 1430 0. 1070 0. 1430 0. 1430 
32(57. 194) |34(60. 794) |35(62. 5%) |29(51. 8%) |26(46. 4%) |22(39. 3%) | 21(37. 594) 


ik. 表格 中 的 实验 数据 依次 为 执行 时 间 (s) 、 正 样本 识别 率 (%) 、 负 样本 识别 率 (%) ,整体 错误 率 和 支持 向 量 个 数 的 
比率 (%)。 


4.1.8 SLMBSVM-kNN 算法 


SVM 对 于 线性 不 可 分 的 问题 ,通过 引入 非 线 性 映射 将 输入 向 量 映 射 到 高 维 空间 ,SVM 
能 在 高 维 空 间 中 给 出 最 佳 分 类 超 平面 。 就 分 类 精度 而 言 ,SVM 是 目前 分 类 方法 中 较 好 的 一 
A, TRAE DER, EES SVM 和 KNN 相 结 合 , 提 出 的 SVM-kNN 分 类 器 ,更 进一步 
提高 了 网 页 分 类 的 精度 。 其 主要 思想 是 : 对 于 待 识别 样本 zx, 计算 x 与 两 类 支持 向 量 代表 
点 的 距离 差 , 如 果 距 离 差 大 于 给 定 的 阔 值 , 即 x 离 分 界面 较 远 .用 SVM 分 类 一 般 都 可 以 。 
当 距 离 差 小 于 给 定 的 阔 值 , 即 x 离 分 界面 较 近 , 则 采用 KNN 对 测试 样本 分 类 。 这 种 方法 的 
困难 之 处 在 于 阔 值 的 确定 上 。 因 为 阔 值 与 特定 的 问题 有 关 , 且 其 绝对 值 变化 较 大 。 因 此 在 
本 节 中 提出 了 一 种 基于 相对 参数 ,两 类 损失 比 (百分数 ) 来 构建 基于 结构 损失 最 小 化 的 支 
持 向 量 机 (SLMBSVMs) 的 数学 模型 ,随后 再 将 其 和 kNN 结合 提出 一 种 文本 分 类 的 算法 。 

借助 SLMBSVM 的 特性 提出 了 一 种 用 于 两 类 文本 (文档 ) 分 类 的 算法 ,该 方法 的 特点 是 
构建 两 个 损失 最 小 化 的 SVM ,分 别 对 训练 样本 进行 判定 , 当 SVMI 判定 属于 正 类 时 ,算法 
直接 输出 正 类 , 当 SVM2 判定 属于 负 类 时 ,算法 直接 输出 负 类 ,如 果 SVMI 判定 属于 负 类 且 
SVM2 判定 属于 正 类 ,这 时 应 该 交 给 kNN 来 判定 。 

SLMBSVM-kNN 分 类 器 算法 如 下 : 

输入 : 训练 样本 集 也 ,参数 n1. C ,测试 集 T.KNN 的 个 数 &。 
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输出 : 分 好 类 的 测试 集 。 

Ab SE 

CO 给 定 参数 n1. CZ. 针对 于 训练 样本 集 D 利用 SLMBSVMs 算法 求 出 相应 的 支 
持 向 量 集 (SV1) 和 它 的 系数 以 及 常数 。 

(2) C=CXn n=1/n, 针对 于 训练 样本 集 D 再 利用 SLMBSVMs 算法 求 出 相应 的 支持 
向 量 集 (SV2) 和 它 的 系数 以 及 常数 。 

(3) ME TAO BM r€ T; 如 果 T==@, 停 止 。 

(4) 利用 支持 向 量 集 (SV1) 对 测试 样本 进行 分 类 。 如 果 分 为 正 类 ,输出 正 类 。 如 果 分 
为 负 类 ,利用 支持 向 量 集 (SV2) 对 测试 样本 进行 分 类 。 如 果 分 为 负 类 , 则 输出 负 类 。 如 果 分 
为 正 类 , 跳 转 到 (5)。 

(5) kNN 算法 判断 该 样本 的 类 别 , 并 输出 。 

(6) T=T 一 {zx} , 跳 转 到 (3)。 


4.1.9 m-SLMBSVMs 5 kNN 相 结 合 的 多 类 文本 分 类 算法 


SLMBSVM-kNN 算法 是 用 来 解决 两 类 分 类 问题 的 。 解 决 多 类 的 分 类 问题 可 以 将 多 类 
问题 转化 为 两 类 分 类 问题 来 解决 。 目 前 将 多 类 问题 转化 为 两 类 分 类 问题 主要 有 两 种 方法 ， 
一 种 是 “1-vs-1” 方 法 , 男 一 种 是 “1-vs-rest” 方 法 。 在 文本 分 类 中 ,采用 1-vs-rest 策略 来 将 多 
类 问题 转化 成 SVM 可 以 解决 的 两 类 问题 。 训 练 正 例 是 该 类 所 包含 的 全 部 网 页 ;而 反例 是 
在 训练 集中 不 属于 该 类 的 所 有 其 他 类 的 网 页 。 但 在 其 多 类 网 页 分 类 问题 中 ,选择 基于 损失 
SVM 分 类 器 的 顺序 对 整体 的 训练 精度 有 很 大 影响 ,因此 在 选择 时 按照 以 下 算法 来 选择 分 类 
器 顺序 , 即 在 选择 分 类 器 时 采用 剩余 分 类 器 中 最 小 错误 率 的 分 类 器 的 方法 ,该 算法 经 实验 证 
明 简 便 有 效 。 

m-SLMBSVM-kNN 多 类 网 页 分 类 的 具体 算法 如 下 : 

输入 : 训练 样本 集 DD, 参 数 n>1, C 三 1, 测 试 集 T,kNN WA k, M= {M1,M2,…， 
Mm} ,为 类 别 个 数 ,M; 为 类 别 号 。 

输出 : 分 好 类 的 测试 集 。 

处 理 : 

CD 给 定 参 数 n2. CZ. 针对 训练 样本 集 D 利用 SLMBSVMs 算法 求 出 每 个 1-vs-rest 
SVM 分 类 器 相应 的 支持 向 量 集 (SV1) 和 它 的 系数 以 及 常数 。 

(2) C—CXn«n—1/n. 针对 于 训练 样本 集 D 再 利用 SLMBSVMs 算法 求 出 每 个 1-rest 
SVM 分 类 器 相应 的 支持 向 量 集 (SV2) 和 它 的 系数 以 及 常数 。 

(3) WR TAO HIMIT1.H z€ T; WE TAO 且 |M|==1, 输 出 剩余 xz 属 于 剩余 类 
M ,停止 ; 如 果 T=@, 停 止 。 

(4) 找到 剩余 的 分 类 边界 最 大 的 支持 矢量 SV1: 

i= arg max | margin(SV1;) | 

(5) 对 每 一 步 xET: 

CD 利用 支持 向 量 集 (SV1;) 对 测试 样本 进行 分 类 : 如 果 分 为 正 类 ,输出 zx 属于 类 i, T= 
T— {z}。 如 果 分 为 负 类 ,利用 支持 向 量 集 (SV2;) 对 测试 样本 进行 分 类 : 如 果 分 为 负 类 , 则 
不 作 输出 ,说 明 不 属于 类 i, 跳 转 到 (6); 如 果 分 为 正 类 , 跳 转 到 @ 。 
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@ KNN 算法 判断 该 样本 的 类 别 , 如 果 属 于 类 i. 则 输出 z 属于 类 i,T==T 一 {xz}。 
(6) M=M—(M,} 跳 转 到 (3)。 


4.2 ”基于 查询 词 关联 的 关键 词 集 发 布 研 究 


本 童 首先 介绍 了 多 关键 字 检 索 所 涉及 的 相关 技术 和 研究 现状 ,然后 针对 于 目前 多 关键 
字 检 索 系 统 的 不 足 提出 了 基于 检索 关键 词 关联 的 关键 词 集 发 布 的 多 关键 词 检 索 系统 。 


4.2.1 引言 


P2P 文件 共享 的 应 用 需求 直接 引发 了 P2P 技术 热潮 ,而 文件 共享 和 快速 信息 检索 的 关 
键 是 索引 机 制 的 建立 。 本 节 将 阐述 了 如 何 高 效 建立 关键 字 的 索引 以 实现 对 等 网 络 的 多 关键 
字 检 索 。 

许多 P2P 系统 使 用 分 布 式 倒 排 索引 技术 来 帮助 快速 查找 一 个 给 定 词 出 现 的 文档 ,用 来 
索引 数据 对 象 的 结 点 是 基于 给 定 的 哈 希 算法 来 精确 决定 的 。 分 布 式 倒 排 索引 在 多 关键 字 检 
索 中 带宽 消耗 较 大 ,为 了 减少 请 求 开销 ,KSS59 使 用 关键 字 集 来 划分 索引 。 但 是 ,由 于 关键 
字 集 合 远 远 大 于 个 体 词汇 ,一 个 KSS 索引 比 一 个 标准 索引 大 许多 倍 。 即 使 KSS 利用 距离 
窗口 技术 "中 在 文档 集中 进行 全 文 查找 所 需要 的 插入 开销 和 存储 开销 也 是 无 法 接受 的 。 

KSS 即 关 键 字 集 搜索 系统 , 它 使 用 分 布 式 倒 排 索引 技术 。 在 传统 的 分 布 式 索 引 系 统 
中 ,最 大 的 一 个 挑战 就 是 找到 一 个 恰当 的 结构 来 分 割 索引 。 用 关键 字 来 分 割 是 个 不 错 的 选 
择 , 但 要 求 每 个 关键 字 的 索引 入 口 列表 能 够 被 检索 到 ,这 样 这 些 列表 之 间 才 可 以 做 交集 。 尽 
管 在 路 由 时 不 需要 经 过 太 多 的 结 点 ,但 是 每 经 过 一 个 结 点 都 要 发 送 大 量 的 数据 。 而 在 KSS 
中 ,索引 是 由 关键 字 集 来 分 割 的 。KSS 建立 一 个 倒 排 索引 ,将 每 个 关键 字 集 映射 到 一 个 文 
档 列表 上 ,当然 这 个 文档 列表 必定 包含 关键 字 集中 的 字 。 当 用 户 搜索 时 ,查询 关键 字 就 被 分 
割 成 一 个 个 关键 字 集 , 然 后 可 以 从 网 络 中 得 到 各 个 集合 的 文档 列表 ,再 将 它们 做 交集 就 输出 
了 最 终 匹 配 的 文档 列表 。 


4.2.2 相关 工作 


在 过 去 几 年 中 ,对 等 网 络 的 查询 和 分 布 式 索 引 已 经 被 广泛 研究 。 最 近 几 年 开发 的 许多 
P2P 系统 和 算法 都 支持 对 等 网 络 的 查询 , 先 来 回顾 一 下 相关 工作 。 

在 Napster 中 的 查询 索引 是 集中 式 的 ,文件 的 存储 和 服务 是 分 布 式 的 。 当 一 个 结 点 加 
入 时 , 它 将 给 Napster 服务 器 发 送 一 个 文件 列表 ,其 中 包含 了 自己 共享 的 所 有 文件 。 如 果 有 
用 户 正 想 在 Napster 上 搜索 音乐 文件 ,并 发 送 查询 消息 ,那么 Napster 服务 器 就 搜索 它 本 地 
的 索引 ,一 旦 找到 ,用 户 就 可 以 从 对 应 的 结 点 上 直接 下 载 想 要 的 那个 文件 。 从 文件 共享 的 角 
度 来 看 ,Napster 是 一 个 P2P 系统 ,然而 ,从 索引 方面 看 ,Napster 是 一 个 集中 式 的 系统 ,类 似 
于 目录 查询 。 

Gnutella?) th 2 — Â P2P 文件 共享 系统 。 它 的 搜索 原理 是 将 查询 消息 使 用 泛 洪 
(Flooding) 方 式 向 所 有 邻居 结 点 广播 ,并 使 用 一 个 的 网 络 生存 时 间 (TTL) 来 进行 范围 限制 
以 避免 造成 网 络 拥塞 。 也 就 是 说 , 它 在 网 络 中 的 搜索 方式 是 广度 优先 (BFS) 搜 索 ,直至 找到 
需要 的 文件 。 发 出 查询 的 结 点 起 初 不 知道 哪个 结 点 上 可 能 会 共享 着 它 想 要 的 那个 文件 ,所 
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以 它 就 只 能 将 查询 广播 给 它 所 有 的 邻居 。 虽 然 它 很 简单 且 能 够 发 现存 在 于 临近 领域 中 的 大 
量 对 象 , 但 这 种 方法 不 能 解决 查询 时 需要 访问 大 量 结 点 所 产生 的 巨大 开销 。Gnutella 网 络 
采用 的 是 非 集中 式 的 结构 ,不 建立 中 心目 录 服 务 器 ,文件 的 位 置 和 文件 查询 ,下 载 也 都 是 纯 
分 散 形式 的 。 

对 于 Gnutella, 由 于 其 广度 优先 (BFS) 搜 索 消 息 流量 过 大 ,参考 文献 [20] 中 提 到 的 迭代 
加 深 (ID) 就 可 以 将 每 一 个 搜索 所 消耗 的 带宽 降 到 最 低 , 同 时 保证 质量 ,在 比较 合理 的 时 间 
内 得 到 理想 的 结果 。ID 不 必 浪 费 太 多 的 带宽 ,直到 网 络 中 N 层 , 它 只 要 结 点 将 查询 广播 
至 N 一 & 层 即 可 。 假 若 没有 找到 目标 ,那么 将 深度 继续 迭代 直至 找到 。ID 有 助 于 节省 带 
宽 消耗 ,利用 BFS 搜索 方式 ,Gnutella 网 络 上 的 大 多 数 搜索 都 很 有 可 能 在 一 个 很 小 的 深度 
值 的 时 候 找到 结果 。 

Gnutella2 中 中 当 一 个 超级 结 点 接受 到 一 个 来 自 叶 子 结 点 的 请 求 时 , 它 将 请 求 传递 到 与 
它 相 关 的 叶子 结 点 及 与 它 相 邻 的 超级 结 点 。 这 些 超级 结 点 在 当地 处 理 请 求 并 传递 给 与 它们 
相关 的 叶子 结 点 。 相 邻 的 超级 结 点 有 规则 地 交换 当地 存储 库 表 格 以 过 滤 出 在 他 们 之 间 的 不 
必要 的 流量 。Modified-BFS5 ,Intelligent-BFS?? 和 APS?? ££ Flooding 机 制 的 一 种 变化 ， 
终端 随机 或 智能 的 选择 一 定 比 率 的 邻居 来 传递 请 求 。 与 以 前 的 方法 相 比 ,这 些 算法 确实 减 
少 了 平均 消息 产生 ,其 准确 度 和 效率 仍然 是 一 个 问题 。 如 果 反 馈 时 间 是 一 个 很 关键 的 因素 ， 
那么 就 可 以 使 用 定向 BFS。 这 是 一 个 广播 策略 ,在 邻居 列表 中 选择 合适 的 几 个 邻居 结 点 来 
发 送 查询 消息 ,这 样 就 避免 了 搜索 所 有 的 邻居 ,这 种 方法 又 称 DBFS。 在 选择 邻居 的 时 候 ， 
原则 是 参照 邻居 在 过 去 搜索 中 的 性 能 表现 。DBFS 是 纯 BFS 和 纯 深度 优先 搜索 的 折 中 
策略 。 

本 地 索引 (Local Index) 中 的 原理 是 采用 结 点 缓存 机 制 预先 存储 距离 本 地 结 点 跳 以 
内 的 多 个 结 点 信息 ,并 允许 P2P 网 络 中 的 一 个 结 点 来 代表 这 些 结 点 来 回答 某 一 条 查询 ,这 
样 就 不 需要 把 查询 消息 往 前 继续 传递 了 。 这 个 系统 使 得 D 跳 以 内 的 文档 在 D 一 r 的 TTL 
内 被 搜索 到 。 然 而 该 系统 同样 有 建立 和 查询 索引 的 巨大 流量 开销 。 在 建立 索引 时 ,一 个 
结 点 要 涉及 7r 跳 数 以 内 的 所 有 结 点 ; 在 搜索 时 ,D 一 ~ 个 跳 数 以 内 的 结 点 仍然 要 被 查询 
到 。 查 询 以 类 似 于 BES 的 方式 进行 ,但 是 只 有 那些 在 某 个 深度 接近 请 求 者 的 结 点 处 理 请 
求 。 由 于 每 个 相连 的 结 点 索引 许多 终端 ,这 种 方法 的 准确 度 和 命中 率 非 常 高 。 另 一 方 
面 ,消息 产生 与 Flooding 模式 是 可 比 的 ,虽然 并 非 所 有 的 结 点 处 理 请 求 ,但 其 处 理 时 间 还 
是 相当 小 的 。 

上 面 所 描述 的 都 是 基于 非 结构 化 P2P 系统 的 查询 。 接 下 来 我 们 讨论 结构 化 P2P 网 络 
中 的 查询 模式 。 像 Tapestry) Pastry) , Chord? 和 CAN 这些 协 议 模 型 使 用 不 同 的 技 
术 传 播 ( 键 值 对 ) 。 虽 然 这 些 分 布 的 哈 希 结构 能 够 被 用 来 创建 倒 排 索引 ,但 它们 并 不 是 非常 
有 效 的 。 

1. 分 布 式 倒 排 索引 

所 谓 的 倒 排 索引 ,就 是 一 个 数据 结构 , 它 将 单词 映射 到 文件 ,帮助 快速 地 查找 到 含有 给 
定单 词 的 文档 。 建 立 并 更 新 一 个 倒 排 索引 就 是 一 个 预计 算 的 过 程 ,把 一 个 文档 中 可 能 要 被 
搜索 的 单词 提取 出 来 。 一 旦 单词 被 提取 ,一 个 连带 的 列表 就 生成 了 , 它 指示 了 每 一 个 单词 对 
应 的 文件 的 指针 。 当 然 必要 的 话 , 还 可 能 包含 在 那个 文件 中 出 现 这 个 单词 的 位 置 。 

倒 排 索引 可 以 在 本 地 建立 。 搜 索引 擎 (如 Google) 就 是 遍历 网 络 ,在 本 地 建立 索引 , 然 


96 
等 网 络 、 网 格 计算 与 云 计算 一 一 原理 与 安全 


后 就 可 以 用 它 来 快速 找到 查询 的 结果 ; 像 Napster 的 P2P 文件 共享 系统 也 是 这 样 ,使 用 一 
个 服务 器 本 地 的 索引 ,来 搜索 文件 , 当 一 个 用 户 在 Napster 服务 器 上 注册 并 共享 一 个 文件 
后 ,这 个 索引 就 会 建立 。 

而 在 分 布 式 索引 系统 中 ,索引 并 不 是 整个 都 存储 在 一 个 服务 器 上 ,而 是 将 索引 分 散 地 放 
在 多 个 网 络 结 点 上 。 分 布 式 索 引 中 最 大 的 挑战 便 在 于 ,怎样 找到 一 个 正确 的 结构 去 分 割 结 
点 上 的 索引 。 有 一 个 简单 的 解决 方法 是 用 文档 中 的 关键 字 来 分 割 索引 ,针对 某 一 给 定 的 关 
键 字 ,将 所 有 的 索引 入 口 存储 在 一 个 特定 的 结 点 上 。 在 这 样 一 个 结构 中 ,要 处 理 一 个 查询 
时 ,系统 只 须 获得 查询 中 每 个 单词 的 索引 入 口 , 然 后 将 得 到 的 结果 集合 起 来 就 可 以 了 。 例 
如 ,用 户 的 搜索 字 是 “对 等 网 络 ”, 那 么 系统 会 下 载 所 有 “对 等 "和 “网 络 ” 的 索引 入 口 ,然后 将 
列表 做 交集 即 可 。 但 是 有 成 百 上 千 的 文件 含有 “对 等 ”, 又 有 成 百 上 千 的 文件 含有 “网 络 ”, 所 
以 ,对 于 搜索 字 中 每 一 个 关键 字 , 系 统 都 需要 传送 大 量 的 索引 入 口 ,甚至 有 可 能 是 兆 级 的 字 
节 大 小 。 图 4-8 就 是 一 个 P2P 网 络 中 的 倒 排 索引 模式 , 它 分 散 存储 在 多 个 结 点 上 。 


文档 标识 


图 4-8 P2P 网 络 中 的 倒 排 索引 


从 多 个 结 点 上 获取 索引 入 口 ,并 将 结果 做 交集 ,这 需要 一 定 的 开销 ,而 降低 这 个 开销 的 
一 个 标准 优化 方案 ,就 是 要 将 较 短 的 列表 传送 给 列表 较 长 的 结 点 。 但 是 ,由 于 “对 等 ”的 列表 
和 “网 络 ” 的 列表 都 比较 长 ,所 以 看 来 ,这 样 的 优化 对 于 P2P 搜索 效率 并 没有 什么 太 大 的 
帮助 。 

2. 关键 字 集 搜索 系统 (KSS) 


Omprakash D Gnawalic9 提 出 了 一 种 基于 关键 字 集 的 查询 系统 (KSS) ,其 是 一 个 使 用 
倒 排 索 引 的 P2P 搜索 系统 。 它 使 用 一 种 分 布 式 倒 排 索引 , 即 通过 一 个 关键 字 集 合 划 分 网 络 
中 结 点 的 索引 。KSS 建立 了 一 个 分 布 式 倒 排 索引 ,将 每 一 个 关键 字 集合 映射 到 一 个 包含 关 
键 字 - 集 中 单词 的 所 有 文档 的 列表 。 关 键 字 集 倒 排 索引 是 这 样 输出 的 : 假如 在 一 个 文档 
docl 中 含有 关键 字 “ 对 等 "“ 网 络 "和 “检索 ”. 并 且 字 集 大 小 是 2, 那 么 索引 入 口 就 是 < 对 等 
网 络 ”,docl ,<“ 对 等 检索 ”,docl 二 ,以 及 到 “网 络 检索 ”,docl 二 ,对 于 字 集 大 小 是 3 的 情 
况 , 入 口 就 是 一 “对 等 网 络 检索 ”,docl 二 。 所 有 对 于 某 个 关键 字 集 的 索引 入 口 都 存储 在 某 一 
个 特定 的 结 点 上 ,而 这 个 结 点 则 是 通过 对 关键 字 的 集合 进行 哈 希 挑选 出 来 的 。 

众所周知 ,用 户 是 通过 关键 字 来 搜索 文件 的 。 我 们 将 用 户 查 询 中 的 关键 字 分 割 成 几 个 
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关键 字 集 合 , 于 是 就 能 从 网 络 中 获取 每 个 集合 对 应 的 文件 列表 。 比 如 说 ,用 户 输 入 “对 等 ”， 
“网 络 ”, “检索” 这 样 三 个 关键 字 , 系 统 就 获取 关于 “对 等 网 络 ” “网络 检索 "和 “对 等 检索 ”的 
索引 入 口 ,一 旦 所 有 的 列表 到 达 , 在 所 有 列表 中 都 出 现 过 的 文件 就 是 与 查询 相 匹 配 的 了 。 假 
如 我 们 得 到 的 关于 “对 等 网 络 ” 的 索引 入 口 有 二 “对 等 网 络 ”",docl 二 ,一 “对 等 网 络 ” ,doc2 二 ， 
到 “对 等 网 络 ” ,doc3 二 光 网 络 检索 ”的 索引 入 口 有 二 “网 络 检索 ”,docl 二 “对 等 检索 ”的 索引 
入 口 有 二 “对 等 检索 ”,docl 二 ,一 “对 等 检索 ”,doc2 二 ,那么 与 那个 查询 相 匹配 的 文档 就 是 
docl 了 。 

对 于 KSS 的 索引 ,我 们 可 以 想象 , 它 会 比 一 个 普通 的 倒 排 索 引 大 得 多 ,因为 关键 字 集 的 
个 数 明显 大 于 单个 关键 字 的 个 数 ,关键 字 的 单个 个 数 越 多 ,这 个 差距 就 越 大 。 但 是 KSS 的 
一 个 显著 的 优势 在 于 ,在 执行 一 个 多 关键 字 查询 时 , 它 的 通信 开销 是 相当 低 的 。 在 一 个 典型 
的 KSS 设置 中 , 双 词 查询 不 需要 大 量 的 通信 ,这 是 因为 它们 全 部 被 负责 该 关键 字 集 的 结 点 
中 索引 。 多 于 两 个 词 的 请 求 需 要 增加 传输 文档 列表 的 开销 ,但 是 由 于 那些 包含 两 个 单词 集 
的 文档 数目 比 包含 单个 单词 的 文档 数目 要 小 的 多 ,因此 通信 开销 也 较 小 。 虽 然 对 于 目标 应 
用 的 请 求 开销 被 减少 ,但 是 插入 开销 却 随 着 那些 被 用 来 产生 索引 入 口 关键 字 的 关键 字 - 集 的 
大 小 呈 指 数 级 增长 。 也 就 是 , 相 比 于 传统 单个 单词 的 发 布 ,KSS 导致 了 更 多 的 插入 开销 。 

KSS 是 使 用 分 布 式 倒 排 索引 ,要 索引 一 个 文档 ,KSS 将 这 个 文档 中 所 有 关键 字 都 提取 
出 来 ,然后 对 关键 字 的 列表 做 排序 ,删除 其 中 有 重复 单词 的 ,这 样 的 一 个 无 重复 字 的 有 序列 
表 , 称 为 全 字 集 。 然 后 ,KSS 从 “全 字 集 ?中 输出 索引 入 口 。 假 如 关键 字 集 的 大 小 是 &, 那 么 
KSS 就 为 全 字 集 中 所 有 上 & 个 字 的 组 合 产 生 索 引入 口 ,此 时 车 文档 及 个 字 , 那 么 所 产生 的 


索引 入 口 就 有 Con sk) — C — EL ERRIN key 就 是 由 入 口中 的 关键 字 集 的 哈 希 形 


成 的 。 然 后 ,就 可 以 用 Chord 将 每 个 索引 入 口 的 key 映射 到 P2P 网 络 中 的 结 点 上 。 

尽管 KSS 的 用 户 可 以 指定 很 少 的 Metadata 域 的 单词 来 发 布 文件 ,以 减少 插入 开销 ,但 
这 种 做 法 不 能 满足 全 文 检索 。 

3. Bloom Filter 技术 

分 布 式 倒 排 索引 技术 将 每 个 关键 字 映 射 到 存储 该 关键 字 的 相应 结 点 ,在 执行 多 关键 字 
查找 时 ,牵涉 到 传送 文档 列表 并 计算 交集 。 显 然 这 种 检索 机 制 需要 在 网 络 上 传输 大 量 的 中 
间 文 档 列表 数据 ,产生 大 量 的 网 络 带宽 开销 ,当前 有 许多 研究 集中 在 如 何 减 少 带宽 开销 以 及 
提高 检索 效率 。 在 减少 带宽 开销 方面 ,参考 文献 [28] 中 采用 了 Bloom Filters” 机 制 , 如 
图 4-9 所 示 。 例 如 ,进行 组 合 查询 ANB ERREF A 映射 到 结 点 A ,关键 字 B 映射 到 结 点 
B。 查 询 请 求 首先 发 往 结 点 A 检索 包含 关键 字 A 的 文档 集合 。 在 结 点 A 上 检索 到 包含 关 
HES A 的 文档 集合 ,然后 计算 该 集合 的 Bloom Filter 并 将 结果 F(A) 发 往 结 点 B, 结 点 B 检 
索 本 地 得 到 包含 关键 字 B 的 文档 列表 ,并 利用 F(A) 计算 出 满足 Bloom Filter i iti) B 3c 
档 集 , 记 为 F(A) 门 B。 该 结果 集 再 传递 回 给 结 点 A, 并 计算 和 A 文档 集 的 交集 ,将 结果 发 送 
回 客户 端 。 

另外 , 结 点 B 也 可 以 直接 将 F(A) 败 B 发 送 给 查询 客户 端 ,但 这 会 包含 一 些 “ 正 向 

在 多 关键 字 查询 中 ,Bloom Filter 是 常用 的 减少 传输 占用 带宽 的 方法 。 此 外 ,不 同 结构 
的 结果 缓存 技术 中 也 常用 来 避免 重复 查询 和 减轻 通信 流量 。 
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4.2.8 KRBKSS 系统 模型 


我 们 发 现在 典型 的 KSS 中 许多 映射 到 网 络 结 点 的 关键 字 对 并 不 或 很 少 在 用 户 的 真正 
请 求 中 被 使 用 ,也 就 是 说 用 户 对 多 关键 字 的 组 合 查询 并 不 是 等 同 概率 均匀 分 布 的 ,而 是 有 相 
关 性 分 布 的 ,其 原因 是 在 KSS 中 请 求 关 键 字 间 的 联系 并 没有 被 考虑 到 。 鉴 于 此 ,希望 能 借 
助 用 户 以 前 提交 的 查询 关键 字 集 来 挖掘 出 查询 关键 字 之 间 的 内 在 联系 ,进而 指引 结 点 的 发 
布 。 我 们 建立 用 户 查询 关键 字 关 系 模型 来 提高 KSS 的 插入 和 存储 效率 ,提高 KSS 系统 的 
性 能 。 

构造 KRBKSS(Keywords Relationship Based Keywords Set System) 的 基本 过 程 如 
图 4-10 所 示 。 构 造 KRBKSS 系统 包括 两 个 阶段 : 

(1) 使 用 关键 字 关 系 发 现 算法 (Keywords Relationship Discovery Algorithm, 
KWRDA) 来 发 现 来 自 于 请 求 日 志 的 请 求 关键 字 之 间 的 联系 ,请 求 日 志 可 以 从 FTP,WWW 
搜索 网 站 的 日 志 中 获得 。 

(2) 在 KRBKSS 中 ,只 映射 这 些 通 过 第 一 步 中 


KWRDA 输出 的 边 , 而 不 是 在 关键 字 集 合 查询 系统 中 € sg 


所 有 的 关键 字 对 ( 集 )。 
1. KWRDA 算法 描述 € a ges 
用 户 请 求 的 关键 词 之 间 的 联系 对 于 文档 的 分 布 式 - 
倒 排 索引 是 非常 有 用 的 ,因此 提出 了 KWRDA 算法 。 E 
KWRDA 算法 将 服务 器 的 访问 日 志 作为 输入 ,关键 词 MP | OCB 
间 关 系 (基于 查询 相关 性 ) 为 输出 。 由 
进行 关键 词 关系 发 现 有 两 种 方法 : 一 种 是 利用 关 A nines 
键 词 间 查 询 的 支持 度 来 进行 构建 ,也 即 概率 构建 算法 ; 
另 一 种 是 利用 数据 挖掘 中 关联 挖掘 的 思想 来 进行 多 关 g 
键 字 关系 发 现 , 也 即 关联 挖掘 算法 。 KRBKSS 
1) 概率 构建 算法 


概率 构建 算法 将 服务 器 的 访问 日 志 作为 输入 ,并 将 。 图 4-10 构建 KRBKSS 的 过 程 
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其 映射 成 为 一 张 表 现 关键 词 之 间 联 系 的 图 。 该 算法 有 三 个 主要 步骤 ， 

CD 根据 请 求 日 志 构造 一 张 有 向 图 G(A,E)。 

(2) 根据 一 个 给 定 的 连通 性 阔 值 0 将 图 修改 为 G (AE) |as 

(3) 输出 Ej. 

下 面 依次 讨论 每 个 步骤 。 

CD 根据 请 求 日 志 构造 一 张 有 向 图 G(A,E)。 

定义 4-1 JR P U, AMAL 所 提交 的 查询 中 的 查询 词 集 用 {ko,k1，,…,k。)it 来 表示 ,其 
中 p 十 1 为 该 次 查询 的 查询 词 个 数 。 

定义 4-2 一 次 查询 ; 设 定 30 分 钟 内 用 户 提 交 的 查询 为 一 次 查询 。 

定义 4-3 查询 周期 Ti: 通 常设 定 一 段 时 间 为 一 个 查询 周期 ,用 来 反映 用 户 查询 行为 
的 阶段 性 ,一 般 为 一 个 月 。 

定义 4-4 MÈU 在 查询 周期 内 的 查询 词 集 : 用 户 U 在 某 个 查询 周期 Ti 内 每 次 
查询 所 提交 的 查询 词 的 集合 ,用 U {koskis okey, hu RA 


定义 4-5 所 有 用 户 在 查询 周期 T, 内 的 查询 词 集 : 所 有 用 户 在 某 个 查询 周期 Ti 内 所 
提交 的 查询 词 全 集 , 用 UU {ho ski e skp, bi RA 


定义 4-6 查询 单项 : 查询 词 全 集 U U {Ro ski stt skp)it 中 每 一 个 查询 关键 词 称 为 一 


个 查询 单项 。 
定义 4-7 用 户 U; 在 查询 周期 内 查询 查询 单项 X 的 查询 次 数 , 用 qduery_numui 
(X) 来 表示 。 
定义 4-8 所 有 用 户 在 查询 周期 Ti 内 查询 查询 单项 义 的 查询 次 数 ,用 query numu,r, 
(X) 来 表示 。 
query_numu,r, (X)= Dy query num, (X) 


3EX 4-9 查询 关键 词 A, 对 查询 关键 词 ^ 的 支持 度 。 
query_numy,r (A; f] A2) 
query_numy,r, (Ay) 
类 似 地 ,我 们 可 以 知道 查询 关键 词 A, 对 查询 关键 词 A 的 支持 度 。 
query_numy,r, (A; N A2) 
SUETON. 1, (A2) 
ERGA. EP. WAWES A 对 应 于 在 用 户 请 求 中 使 用 的 查询 单项 。 边 的 集合 已 对 
应 于 在 用 户 请 求 中 观察 到 的 查询 单项 的 共 发 性 。E 一 {e|SUP(Ce) 之 0}。 由 于 G(4A,E) 是 一 
HEA IP Es, a, 及 Eas, 应 该 被 互相 区 分 。 其 中 A, 和 As 是 集合 A 中 的 顶点 。 例 如 ,如 
果 一 个 请 求 包括 查询 术语 *P2P” 和 ”search”, 则 对 应 边 的 查询 次 数 会 相应 的 加 1。 有 向 边 
(p2p-~>~search) 上 的 权 值 表示 的 是 关键 词 PZP 对 关键 词 search 的 支持 度 。 
(2) 根据 一 个 预先 设 定 的 连通 性 阔 值 9 将 图 修改 为 G6(A.E)1,。 该 算法 对 于 所 有 用 户 
的 所 有 查询 涉及 的 边 ,如 果 图 中 该 边 不 存在 , 则 在 关键 字 关 系 图 中 添加 相应 的 边 ,如果 该 边 
存在 ,在 相应 边 的 查询 次 数 上 加 1; 然后 计算 每 条 边 起 始 结 点 关键 词 对 终点 关键 词 的 支持 
度 ; 最 后 检查 每 条 边 ,看 看 是 否 大 于 给 定 阔 值 ,如 果 小 于 给 定 阅 值 , 则 删除 该 边 , 剩 下 的 图 即 
AGCGA E) ls. 


SUPr, CE, -4,) 


SUPr, CEA, A) 
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由 于 图 G 的 连通 性 一 般 是 较 高 的 ,我 们 使 用 一 个 连通 性 阔 值 来 减少 图 中 边 的 数目 。 连 
通 性 冰 值 表示 为 现存 边 的 最 小 权 值 。 当 这 个 阔 值 变 大 ,图 将 变 得 稀 琉 , 当 阔 值 变 小 ,图 将 变 
得 密集 。 
ERGA. EdD PHARE A 与 图 G(A,E) 中 的 顶点 集合 A 相同 ,对 应 于 用 户 请 求 中 
使 用 的 查询 单项 。 然 而 , 边 的 集合 El 对 应 于 在 用 户 请 求 中 观察 到 的 查询 术 请 共 发 性 , 即 
E |, = lel e € E and SUP(e) > 0} 
显然 不 同 的 连通 性 阔 值 9 会 输出 不 同 的 Ey. MES TEP 0 RK , E RR E o 
G) 输出 Ey, APT OPE, 的 顶点 对 ,代表 了 查询 关键 字 间 的 并 发 关系 。 
该 方法 的 具体 算法 如 下 : 
算法 4-1 基于 词 间 支 持 度 的 关键 词 关联 发 现 算法 。 
input: 时 间 段 T, 内 的 所 有 用 户 的 所 有 次 查询 
output :关键 词 关 系 图 
for all U; 
for all query 
insert into graph(K1,K2) // 任意 两 个 关键 词 
num(K1,K2) ++ ; 
for each edge 
compute SUP;, (E, ->a ) ; 
for each edge in G(A,E) 
if SUP», (E, ->a, ) < threadhold delete(e) 
return G(A, E) |; 


2) 关联 挖掘 算法 

概率 构建 算法 的 缺点 在 于 : 一 方面 9 值 的 确定 有 人 为 性 , 另 一 方面 只 能 进行 两 个 关键 
字 间 关系 的 构建 ,而 不 能 进行 多 关键 字 间 关系 的 构建 。 因 此 ,我 们 提出 利用 数据 挖掘 中 关联 
挖掘 的 方法 来 进行 频繁 项 挖掘 以 发 现 查询 相关 的 多 个 关键 词 。 同 样 为 了 和 算法 4-1 概率 算 
法 结合 使 用 ,可 以 由 概率 算法 生成 双关 键 字 间 联 系 ,由 关联 挖掘 算法 在 其 基础 上 生成 多 关键 
词 间 联系 ,并 将 两 者 合成 来 指导 发 布 。 借 鉴 Apriori 关联 算法 ,我 们 的 具体 算法 见 算法 4-2。 
首先 ,对 一 些 基 本 定义 做 一 下 说 明 : 

item; 立即 查询 单项 。 

itemset: I= {ii sizsiz ois",in) 即 关键 词 的 查询 单项 集合 。 

Ck; 代表 可 能 成 为 集合 大 小 为 k( 含 有 上 个 items 的 itemset) 的 候选 集 项 。 

Lk; 代表 和 集合 大 小 为 k( 含 有 kk 个 items 的 itemset) 的 frequent itemset,itemset 中 的 每 
个 item 皆 满 足 至 少 在 日 志 中 出 现 的 概率 不 小 于 支持 度 。 

算法 4-2 ”使 用 频繁 项 集 关 联 挖 气 的 关键 词 关 系 发 现 算法 。 


C, = (frequent 2 - itemset}; // 根 据 概率 算法 给 出 的 两 关键 字 之 间 的 关系 ,形成 C 
for (k=2; |G.|#0 andk<5; k++) // 仅 发 现 4 个 以 下 关键 词 间 的 关系 
begin 

对 于 C, 中 的 每 一 个 集合 ,验证 是 否 是 频繁 的 ; // 可 以 假定 C, 都 为 频繁 的 

4 王 成 为 G: 中 频繁 集 的 汇集 ; 

生成 候选 关联 关系 Cri; 


end 


S45 ”对 等 网 络 信息 检 


2. 系统 结构 

KRBKSS 能 够 被 嵌入 到 任意 支持 分 布 式 喻 希 (DHash) 表 接口 的 P2P 平 台中 ,如 Chord, 
CAN 和 Tapestry。 这 一 特点 ,类 似 于 KSS, 我 们 将 描述 一 个 使 用 Chord 系统 的 示例 系统 。 
KRBKSS 系统 架构 如 图 4-11 所 示 。 


KRBKSS KRBKSS KRBKSS 


i i i 


DHT f=; DHT j+ DHT 


i i id id 


Chord =| Chord =) Chord 
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系统 结构 中 的 Chord 层 提供 了 一 种 操作 的 支持 : 给 定 一 个 键 , 它 将 键 映射 为 一 个 结 点 。 
系统 中 的 每 个 结 点 使 用 一 致 性 哈 希 函数 来 维护 一 个 称 为 邻接 表 的 数据 结构 ,通过 这 个 数据 
结构 请 求 被 路 由 到 越 来 越 接 近 于 目标 结 点 或 者 其 后 继 结 点 的 地 方 。 在 一 个 Chord 系统 中 
每 个 查找 操作 所 需 的 平均 消息 数目 为 O(logn)。 

DHash 层 在 Chord 系统 上 增加 了 一 个 分 布 式 喻 希 表 , Dhash 提供 了 一 个 简单 的 得 到 - 
放 入 API, 它 使 一 个 P2P 应 用 能 够 在 P2P 网 络 的 结 点 中 放 入 一 个 数据 项 以 及 根据 它们 的 
ID 从 网 络 中 得 到 数据 。 

KRBKSS 提供 了 客户 端 应 用 的 两 种 操作 。 一 种 是 插入 文档 操作 , 它 通 过 关键 词 之 间 的 
联系 从 文档 中 抽取 关键 词 ,产生 索引 项 目 , 并 将 它们 存储 在 网 络 中 。 另 一 种 是 查找 请 求 中 没 
有 联系 的 关键 词 集合 的 文档 列表 ,并 返回 文档 的 交叉 列表 。 

3. KRBKSS 发 布 和 请 求 

KRBKSS 工作 如 下 : 当 一 个 用 户 共享 一 个 文件 ,KRBKSS 利用 关键 词 之 间 的 联系 来 产 
生 文件 的 索引 项 目 , 通 过 哈 希 关键 字 - 集 为 索引 项 目 形成 键 ,使 用 一 致 性 哈 希 函数 和 Chord 
将 键 映射 成 网 络 中 的 结 点 。 

KRBKSS 建立 索引 的 算法 如 下 : 

1 word[0..n] = meta- data field 

2 for (i = 0; i<n; itt) 

3 for (j = i*1; j<n; j++) 

4 if ((word[ i], word[j])€E|») 

5 set_add(keywords, concat(sort(word[i], word[j]))); 

6 for (i = 0; i< keywords. size; i++) 

7 push(index entries, < hash(keywords[i]), documentID>) ; 

举 个 例子 , 令 A、B、C.D 为 标识 且 为 docID 文档 中 的 单词 。KSS 为 6 个 组 合 (AB、AC、 
AD、BC、BD、CD) 中 的 每 一 个 建立 索引 项 目 。 对 一 个 大 小 为 2 的 集合 ,C(n,2) 给 出 了 在 nn 个 
唯一 关键 词 的 集合 的 又 积 中 唯一 项 目的 数目 。 然 而 发 现 关键 词 对 AC. AD, BC. BD, CD 从 
不 或 很 少 成 为 用 户 的 请 求 对 。 这 样 在 KRBKSS 中 只 有 关键 词 对 AB 被 映射 成 P2P 网 络 中 
的 结 点 。 

在 KRBKSS 系统 中 多 关键 词 请 求 算法 工作 如 下 : 
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输入 : Qin. 

输出 : 一 个 包含 请 求 中 所 有 关键 词 的 文档 列表 。 

处 理 : 

(D RSQ. 

(2) 4% VAD 或 1Q 151 时 ,依次 执行 (3) 和 (4) ,否则 跳 转 至 (6) 。 

(3) 利用 关键 词 关系 E M Q 中 找到 最 接近 的 两 个 请 求 关键 词 &,, M kpo 
(4) 找到 为 两 个 关键 词 存 储 索 引 项 目的 结 点 并 取得 列表 。 

(5) Q'—Q' — (e, b, ) , 跳 转 至 (2)。 

(6) 将 相关 文档 列表 求 交集 ,把 结果 输出 。 


4.2.4 模拟 实验 


本 节 采 用 仿真 评估 KRBKSS 算法 。 为 了 分 析 KRBKSS 算法 对 全 文 索引 的 开销 和 效 
率 , 我 们 开发 了 一 个 网 络 息 虫 crawler, 使 用 网 页 www. edu. cn 和 www. sohu. com 作为 种 子 
并 递归 地 下 载 文 本 和 HTML XIF. oH xb p fs echo FT 42 238 个 文本 页 (大 小 为 
492MB) 。 为 了 比较 KRBKSS 算法 和 现存 KSS 算法 ,执行 了 KSS 和 标准 倒 排 索引 。 在 仿 
真实 验 中 使 1800 个 结 点 运行 于 带宽 为 100Mbps 局 域 网 中 的 两 台 个 人 电脑 上 ,每 台电 脑 有 
1.7 GHz 处 理 器 和 512MB RAM 并 运行 Linux AS 3.0. 

可 以 利用 搜索 网 站 请 求 日 志 来 发 现 请 求 关键 词 之 间 的 关系 。 

我 们 开发 了 一 个 可 调整 系统 Extra, 它 完全 运行 于 Java。 在 预 处 理 阶段 ,Extra 分 析 
HTML 页 并 且 去 除 无 效 字符 。 经 过 分 析 ,中文 项 将 通过 最 大 匹配 中 文 单词 分 段 算法 抽取 和 
分 离 出 来 ,得 出 的 中 文 单词 使 用 唯一 ASCI 字符 串 进 行 编码 。 同 时 选择 一 个 终止 符 列表 来 
过 滤 英 文 和 中 文 的 终止 符 。 

使 用 KRBKSS 算法 模拟 文档 的 插入 和 请 求 。 接 着 在 每 个 文本 文件 上 运行 KRBKSS 算 
法 以 创建 索引 项 目 并 将 它们 发 布 到 相应 的 虚拟 终端 。 通 过 使 用 不 同 连 通 性 阅 值 9 时 的 插入 
开销 、 请 求 开 销 评估 这 些 算法 。 

1. 插入 开销 

所 谓 的 插入 开销 ,就 是 当 一 个 文档 插入 到 系统 中 时 ,所 需要 传输 的 字 节 数 。 当 一 个 用 户 
请 求 系统 共享 出 一 个 文件 时 ,系统 生成 索引 入 口 ,插入 到 分 布 式 索引 中 。 对 于 每 个 文档 , 生 
成 的 索引 入 口 越 多 ,那么 插入 开销 就 越 大 。 如 果 要 插入 一 个 字 的 文档 ,用 所 有 可 能 大 小 的 
关键 字 集 的 所 有 子 集 作为 key, 生 成 索引 入 口 ,那么 这 个 插入 的 开销 将 是 2" 。 对 于 关键 字 对 
的 结构 , 即 2 个 字 为 一 个 关键 字 集 大 小 的 情况 ,开销 则 是 C(n,2)。 这 种 退化 的 情况 是 将 关 
键 字 集 中 的 每 个 词 的 哈 希 作为 key, 它 的 插入 开销 就 很 小 。 如 果 一 个 文档 的 大 小 是 nn, 关键 
字 集 的 大 小 是 ,一 个 索引 入 口 的 大 小 为 ;, 那 么 与 插入 相关 的 整个 的 开销 就 是 Ck) Xs。 

插入 开销 是 指 , 当 文档 被 插入 到 系统 时 所 传递 的 字 节 数 。 当 用 户 请 求 KRBKSS 系统 以 
共享 文件 时 ,系统 产生 被 插入 到 分 布 式 索引 中 的 索引 项 目 。 不 同 于 KSS, 在 KSS 中 如 果 我 
们 为 一 个 有 个 关键 词 的 文档 产生 索引 项 目 , 对 典型 的 关键 字 - 对 模式 所 需 的 开销 注定 是 
Cln,2) ,KRBKSS 只 产生 很 小 的 索引 项 目 ,其 结果 所 需 的 插入 开销 是 很 小 的 。 

图 4-12 显示 了 索引 项 目 产生 数目 对 应 于 在 一 个 使 用 标准 倒 排 索引 模式 文档 中 单词 数 
目的 曲线 图 ,图 中 包括 0—0 的 KRBKSS.0— 0. 05 的 KBRKSS 和 窗口 大 小 为 10 的 KSS. 
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图 4-13 显示 了 使 用 在 窗口 大 小 为 5 的 KSS 和 0—0 并 使 用 标准 倒 排 索引 模式 的 KRBKSS 
时 每 个 文档 (页 ) 被 插入 到 系统 所 产生 的 索引 项 目 数目 分 布 。 图 4-12 和 图 4-13 说 明 
KRBKSS 的 插入 开销 比 KSS 小 得 多 ,但 标准 倒 排 索引 模式 高 一 点 。 
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4-12 不 同 发 布 算法 下 发 布 量 的 变化 关系 


--— KSS with window size of five 
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图 4-13 不 同 发 布 算法 下 每 文档 索引 量 和 索引 百分率 的 变化 关系 


2. 查询 开销 

查询 开销 ,计算 的 就 是 当 一 个 用 户 在 系统 中 搜索 某 个 文件 时 ,需要 传输 的 字 节 数 。 理 想 
情况 下 ,一 个 搜索 系统 只 传输 查询 关键 字 的 一 个 子 集 , 以 及 用 户 感 兴趣 的 匹配 的 结果 。 但 是 
在 一 个 现实 的 搜索 系统 中 ,只 能 尽 可 能 地 向 这 个 理论 的 最 小 值 靠拢 。 在 查询 中 ,传输 搜索 关 
键 字 并 不 是 一 个 真正 的 开销 ,因为 大 多 数 查询 只 有 很 少 的 几 个 关键 字 。 只 有 当 这 个 查询 要 
向 很 多 台 机 器 传输 时 ,我 们 才 会 去 考虑 这 个 问题 。 真 正 的 开销 在 于 ,在 结果 列表 合成 的 过 程 
中 ,要 将 中 间 的 结果 列表 从 一 个 结 点 传输 到 另 一 个 结 点 。 

查询 开销 是 指 当 用 户 查找 一 个 系统 中 的 文档 时 字 节 的 测量 。 众 所 周知 ,在 系统 中 从 一 
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个 主机 向 另 一 个 发 送 中 间 列 表 的 开销 是 请 求 开销 的 主要 部 分 。 

图 4-14 所 示 为 当 使 用 Bloom Filter 标准 倒 排 索引 , 非 Bloom Filter 标准 倒 排 索引 ,窗口 
大 小 为 5 的 KSS,9==0 的 KRBKSS.6—0. 05 的 KBRKSS, 对 应 于 多 种 查询 以 KB 传递 的 中 
间 数 据 。 图 4-14 说 明 KRBKSS 的 请 求 开销 比 Bloom Filter 和 非 Bloom Filter 的 标准 倒 排 
索引 低 得 多 ,但 比 KSS 高 一 点 。 


— s — Standard inverted index scheme with Bloom Filter 
—*—- Standard inverted index scheme without Bloom Filter 
一 全 一 KSS with window size 5 

一 一 KRBKSS with 0-0 

—*— KRBKSS with 0=0.05 
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图 4-14 不 同 索引 关键 词 个 数 下 传输 的 字 节 量 
4.3 本 章 小 结 


本 章 首先 介绍 基于 分 类 器 融合 的 对 等 网 络 文档 分 类 算法 研究 ,然后 探讨 了 从 用 户 请 求 
日 志 中 提炼 的 请 求 关键 词 之 间 的 关系 ,以 改进 KSS 系统 的 性 能 。 其 主要 思想 是 : 首先 , 利 
用 KWRDA 算法 来 发 现 来 源 于 请 求 日 志 的 请 求 关键 词 之 间 的 关系 ,请 求 日 志 可 以 从 FTP 
或 WWW 搜索 网 站 获得 。 接 着 ,在 KRBKSS 的 发 布 中 , 仅 映射 这 些 KWRDA 中 的 关联 的 
关键 词 集合 ,而 不 是 KSS 中 所 有 的 关键 词 对 ,这 样 相 比 于 KSS 会 极 大 地 降低 插入 开销 和 存 
储 开销 。 实 验 结果 说 明 KRBKSS 在 插入 开销 和 存储 开销 方面 比 KSS 索引 更 有 效 , 并 且 在 
请 求 的 通信 开销 方面 比 标准 倒 排 索引 小 。 
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网 格 计算 研究 与 进展 第 5 章 


网 格 计算 (Grid Computing) 的 产生 和 发 展 为 人 们 提供 了 透明 访问 和 使 
用 分 布 . 异 构 ,动态 资源 的 方式 ,同时 也 给 分 布 式 计算 的 研究 领域 带 来 了 许多 
机 过 和 挑战 。 如 何 高 效 、 合 理 地 对 网 格 资源 进行 管理 与 调度 、 使 得 大 规模 的 
科学 计算 问题 能 够 得 到 可 靠 的 解决 ,已 经 成 为 一 个 重要 的 研究 热点 ,这 也 是 
本 书 的 研究 目的 。 


5.1 网 格 简 介 


网 格 的 概念 是 借鉴 电力 网 (Electric Power Grid) 概 念 提出 的 ,网 格 计算 
的 最 终 目标 是 实现 用 户 在 使 用 计算 力 时 ,能 够 如 同 当 前 使 用 电能 一 样 方便 。 
当 人 们 在 使 用 电能 时 ,无 须知 道 它 的 来 源 地 以 及 产生 的 方式 ,只 要 知道 它 是 
一 种 统一 形式 的 电能 就 可 以 了 。 类 似 的 ,通过 网 格 计算 ,用 户 希 望 在 使 用 计 
算 力 时 ,无 须 关心 计算 力 的 来 源 地 以 及 计算 设施 的 形式 ,计算 力 以 统一 的 形 
式 呈 现在 用 户 面前 。 网 格 计算 代表 了 一 种 先进 的 技术 和 基础 设施 ,是 分 布 式 
高 性 能 计算 和 高 吞吐 量 计 算 的 主要 潮流 和 今后 的 发 展 方向 。 


5.1.1 网 格 的 分 类 


根据 网 格 所 共享 的 资源 和 所 支持 的 应 用 ,可 以 做 如 下 分 类 : 

1. 计算 网 格 

这 类 网 格 利用 分 散在 广域网 上 的 动态 共享 计算 资源 进行 科学 工程 计算 
以 解决 各 种 研究 问题 ,这 是 网 格 最 初 的 应 用 模式 。 进 一 步 ,计算 网 格 包 括 分 
布 式 高 性 能 计算 、 高 春 吐 量 计算 。 分 布 式 高 性 能 计算 利用 广域网 上 的 计算 资 
源 使 单个 应 用 程序 的 执行 时 间 最 短 。 而 高 吞吐 量 计 算 使 整个 网 格 系统 的 利 
用 率 达 到 最 大 。 

2. 抽取 网 格 

这 类 网 格 从 空闲 的 服务 器 和 台式 机 上 抽取 CPU 时 间 片 ,以 解决 资源 密 
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集 型 的 任务 计算 。 

3. 数据 网 格 

这 类 网 格 动态 共享 分 散在 广域网 上 的 数据 资源 以 解决 海量 存储 问题 ,如 数字 图 书馆 、 数 
据 仓 库 等 。 

4. 服务 网 格 

这 类 网 格 提供 了 任何 单个 机 器 都 不 能 提供 的 服务 ,例如 点 播 服务 、 协 作 服 务 、 多 媒体 网 
格 等 。 协 作 服 务 提供 了 虚拟 工作 空间 ,使 用 户 和 程序 实时 交互 。 


5.1.2 国内 外 网 格 研究 项 目 


网 格 计算 从 研究 中 心 和 学 校 开始 ,现在 一 些 商 业 企业 也 在 使 用 网 格 。 网 格 计算 开创 了 
一 种 新 的 金融 和 商业 模式 。 在 金融 服务 领域 ,网 格 计算 可 提高 贸易 交易 的 速度 ,处 理 大 量 的 
数据 ,提供 更 加 稳定 的 IT 环境 ,减少 启 机 时 间 。 政 府 代理 机 构 可 以 使 用 网 格 存储 、 保 护 和 
集成 巨大 的 库存 数据 。 许 多 民用 和 军用 的 代理 机 构 对 跨 部 门 的 协作 、 数 据 的 同一 性 和 安全 
性 等 方面 都 有 巨大 的 需求 ,这 也 可 以 通过 网 格 来 实现 。 在 生命 科学 领域 ,公司 可 以 使 用 并 行 
的 网 格 计算 处 理 大 量 的 数据 ,加 快 数据 的 处 理 就 意味 着 可 以 快速 占有 市 场 。 在 这 一 行业 , 极 
细微 的 因素 都 是 决定 性 的 。 网 格 计算 的 重要 性 ,不 言 而 喻 ,统计 数据 表明 ,主机 系统 有 40% 
的 时 间 空 闲 ,UNIX 服务 器 实际 的 工作 时 间 只 有 10% ,正常 情况 下 ,一 天 中 95% 的 时 间 PC 
机 什么 都 没 做 。 借 助 于 网 格 ,可 以 把 这 部 分 资源 业 合 在 一 起 统一 使 用 。 

在 过 去 的 几 年 时 间 内 ,网 格 计算 迅速 成 为 全 球 计算 机 界 关注 的 热门 技术 之 一 ,得 到 了 许 
多 国家 学 术 界 ,企业 界 甚 至 政府 部 门 的 高 度 重视 和 支持 。 美 国 、 英 国 \ 日 本 、 加 拿 大 、 意 大 利 、 
澳大利亚 等 国家 政府 相继 投入 巨 资 启动 了 庞大 的 网 格 研 究 与 开发 计划 。 例 如 美国 的 
TeraGrid, NEESGrid 和 著名 的 Globus 项 目 , 英 国 国家 网 格 U. K.， National Grid ,德国 的 计 
算 资源 统一 接口 项 目 Unicore, 以 及 亚太 地 区 网 格 APGrid 等 。 

我 国 在 网 格 计算 方面 也 做 了 大 量 基 础 性 和 前 脆性 的 研究 ,例如 ,科技 部 以 “高 性 能 计算 
机 及 其 核心 软件 ”863 专项 课题 的 形式 ,在 “十 五 "期间 大 力 支持 网 格 的 研究 和 应 用 开发 工 
作 。 国 家 自然 科学 基金 委 迅 速成 立 "e-science 科学 研究 活动 环境 "重大 专项 。 教 育 部 依托 教 
育 与 科研 网 CERNET 和 高 校 的 大 量 计算 资源 和 信息 资源 ,推出 ChinaGrid 计划 。 上 海 市 也 
于 2003 年 11 月 份 启动 了 上 海 市 科 委 重大 科研 攻关 项 目 “ 信 息 网 格 及 其 典型 应 用 研究 ”, 建 
立 具有 上 海 特色 的 信息 网 格 , 率 先 推进 城市 网 格 计划 。 


5.2 网 格 资源 管理 和 调度 策略 研究 现状 


5.2.1 资源 管理 系统 

总 体 来 讲 , 现 有 的 资源 管理 系统 可 以 分 成 三 种 : 集中 式 资源 管理 模式 、 分 布 式 资源 管理 
模式 和 层次 式 资源 管理 模式 (或 称 混 合式 管理 模式 ) 。 

1. 集中 式 资源 管理 模式 

集中 式 资源 管理 系统 可 以 用 来 管理 单一 或 者 多 种 资源 ,尤其 适合 于 集群 系统 的 管理 , 例 
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如 Condor“) ,LSF? .Condine 中 等 系统 均 属于 集中 式 的 资源 管理 系统 。 集 中 式 的 管理 模式 
具有 以 下 优点 : 结构 简单 .易于 管理 .可 以 确保 一 致 性 和 完整 性 。 但 是 ,由 于 调度 瓶颈 问题 ， 
集中 式 资源 管理 很 难 用 于 分 布 式 系统 的 资源 管理 。 

2. 分 布 式 资源 管理 模式 

分 布 式 资源 管理 系统 将 资源 分 成 多 个 不 同 的 虚拟 组 织 (Virtual Organization, VO)" 
进行 管理 ,每 个 虚拟 组 织 内 部 都 存在 一 个 域 调度 器 。 这 种 管理 模式 具有 很 好 的 扩展 性 ,但 是 
难以 获得 其 他 域 的 状态 ,因此 ,整个 系统 的 最 佳 调度 性 能 存在 问题 。 此 外 ,不 同 域 之 间 的 通 
信 量 很 大 ,由 于 数据 是 分 散 的 ,不 能 保证 在 多 个 域 之 间 进 行 调度 时 数据 的 一 致 性 。 

3. 层次 式 资源 管理 模式 

层次 式 资源 管理 模式 集合 了 集中 式 和 分 布 式 资源 调度 模式 的 优点 ,不 仅 能 够 消除 两 种 
模型 的 缺点 ,同时 还 能 够 解决 分 布 式 系统 资源 管理 的 一 些 挑 战 性 问题 ,例如 ,系统 的 自治 性 、 
异 构 环 境 和 调度 策略 的 扩展 性 等 。 这 种 模式 非常 适合 用 于 网 格 系统 的 资源 管理 ,Globus、 
Legion?! Ninf NetSolve[] 等 系统 都 采用 这 种 层次 式 的 混合 资源 管理 模式 。 


5.2.2 网 格 资源 管理 系统 


在 网 格 环境 中 ,存在 各 种 不 同类 型 的 异 构 资 源 , 包 括 计 算 资 源 、 存 储 资 源 、 网 络 资源 等 ， 
在 这 里 资源 是 指 具 有 特定 功能 的 网 络 化 实体 ,同时 存在 种 类 繁多 的 需求 资源 的 网 格 应 用 。 
作为 提供 资源 的 资源 提供 者 和 需求 资源 的 资源 消费 者 ,它们 有 着 各 自 使 用 资源 的 策略 、 目 
的 。 根 据 网 格 用 途 , 从 资源 使 用 的 角度 可 以 将 网 格 分 成 为 专用 网 格 、 通 用 网 格 。 

在 传统 的 计算 网 格 中 ,系统 中 的 资源 专属 于 某 一 组 织 ,例如 ,美国 NASA 的 信息 力 网 格 
(Information Power Grid)? fif NASA 机 构 内 的 科研 人 员 使 用 ,通常 采用 集中 式 方法 控 
制 , 从 而 能 够 保证 网 格 服务 的 质量 。 

通用 网 格 是 专用 网 格 的 扩充 ,是 应 大 量 存在 的 短期 协作 的 需求 而 构建 的 。 例 如 ,在 地 理 
上 分 布 的 一 组 科学 家 需要 开展 短期 的 协作 和 资源 共享 以 完成 热 化 学 应 用 仿真 实验 ,这 就 需 
要 组 成 一 个 虚拟 组 织 ,定义 VO 中 每 个 参与 者 的 权利 ,建立 相互 之 间 的 认证 。 同 时 每 个 参与 
方 需 要 支持 网 格 中 间 件 ,以 及 定义 它们 在 中 间 件 之 上 向 虚拟 组 织 的 其 他 成 员 提 供 的 服务 。 
在 这 种 情况 下 ,分 散 管理 和 分 层 管理 是 一 种 有 效 的 管理 方式 。 通 用 网 格 资源 管理 的 模式 还 
可 以 从 相互 之 间 协 作 模 式 的 资源 共享 做 进一步 扩展 , 即 通过 一 定 的 激励 ,使 得 人 们 愿意 贡献 
出 其 空闲 的 计算 资源 ,进而 构造 一 个 公共 网 格 和 普 适 网 格 ,如同 电 力 网 一 样 , 需 求 资源 的 
用 户 ,能 如 同 从 电力 网 中 使 用 电力 一 样 很 方便 地 从 网 格 中 得 到 计算 力 。 

无 论 是 专用 网 格 系统 ,还 是 通用 网 格 系统 ,其 资源 管理 系统 的 基本 功能 是 接受 网 格 上 用 
户 的 请 求 ,根据 当前 可 用 资源 信息 以 及 用 户 请 求 的 服务 质量 (QoS) ,将 用 户 的 请 求 映 射 到 最 
佳 资源 组 合 上 。 一 个 资源 管理 系统 至 少 提供 三 种 基本 服务 : 资源 信息 发 布 、 资 源 发 现 机 制 
和 资源 调度 59 。 

目前 众多 的 网 格 计算 研究 项 目 . 分 别 有 其 各 自 的 资源 管理 系统 ,抽象 其 具体 实现 ,可 以 
得 到 以 下 属性 59 : 机 器 组 织 .资源 描述 模型 .命名 空间 组 织 、 服 务 质量 .资源 信息 存储 方式 、 
资源 发 现 机 制 、 调 度 组 织 .调度 策略 .状态 估计 、 再 调度 (Rescheduling) 等 。 

根据 以 上 资源 管理 属性 ,下 面 分 别 对 两 种 网 格 核心 层 中 间 件 Globus 和 Legion ,以 及 三 
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种 典型 的 实现 资源 管理 与 调度 的 用 户 层 中 间 件 AppLes、Conder-G 和 Nimrod-G 的 资源 管 
理 系统 进行 分 析 。 

1. Globus 资源 管理 中 间 件 

TE GT 2.x 中 ,Globus 的 机 器 组 织 采 用 层次 结构 ,上 层 的 服务 可 以 由 多 个 下 层 服 务 来 实 
HUY EEF LDAP 元 计算 目录 服务 (MDS)D3 提供 当 前 资源 信息 。 其 中 MDS 提供 网 格 
索引 信息 服务 (GIIS) 和 网 格 资源 信息 服务 (GRIS),GRIS 实现 了 一 个 统一 的 接口 ,通过 这 个 
接口 ,可 以 查询 网 格 中 当前 资源 提供 者 的 信息 ,包括 它们 当前 的 配置 .计算 能 力 及 状态 。 
GIIS 通过 从 众多 GRIS 中 *pull" 信 息 构造 一 个 单一 一 致 的 资源 信息 数据 库 , 而 资源 提供 者 
通过 “push” 协 议 更 新 它 所 属 的 GRIS。MDS 命名 采用 树 结构 ,Globus 以 资源 预 留 方式 提供 
QoS,Globus 提供 调度 组 件 但 不 提供 调度 策略 。 高 层 的 资源 代理 (Resource Broker) 通 过 
LDAP 协议 查询 MDS 获得 资源 信息 ,目前 这 样 的 资源 代理 有 AppLes、CondorG 和 
Nimrod-G 等 。GT 4. x 基于 Web Service, 但 仍 采 取 层 次 结构 组 织 资源 ,采用 GIIS 管理 资源 
信息 ,而 GRIS 则 包含 在 OGSI(Open Grid Services Infrastructure) 核 心 框架 中 。OGSI 制订 
了 一 组 适用 于 所 有 网 格 服务 的 服务 元 语 。 更 多 的 规范 也 正在 制订 中 。 

2. Legion 资源 管理 中 间 件 

Legion[ 引 借用 了 面向 对 象 的 概念 和 管理 ,使 得 系统 中 的 任何 一 个 实体 都 被 看 作 一 个 自 
主管 理 并 有 自己 的 控制 流 的 对 象 ,实体 之 间 的 通信 和 则 赋予 对 象 方法 调用 的 概念 。 它 采取 层 
次 化 系统 结构 ,命名 空间 采用 图 模式 ,提供 软 服 务 质量 (soft QoS) ,目录 服务 采用 联合 文件 
系统 (Federated File System) ,采用 定期 pull 实现 资源 信息 发 布 ,基于 查询 实现 资源 发 现 。 
Legion 提供 两 种 类 型 的 资源 ,分 别 是 计算 资源 和 存储 资源 。Legion 的 调度 基于 两 个 原则 : 

CD 地 点 自治 , 即 资源 提供 者 对 如 何 使 用 其 拥有 的 资源 有 最 终 的 决定 权 ; 

(2) 用 户 自治 , 即 用 户 自己 可 以 选择 调度 策略 从 而 为 改善 性 能 提供 了 可 能 。 

3. AppLes 

AppLes(Application Lever scheduler)535 为 每 个 独立 的 网 格 应 用 程序 提供 一 个 调度 
代理 (Agent) ,AppLes Agent 利用 NWS(Network Weather Service) 提供 的 静态 和 动态 的 
应 用 程序 以 及 系统 的 信息 来 为 其 对 应 的 应 用 程序 分 配 一 组 可 用 的 资源 ,与 底层 的 Globus 或 
Legion 的 资源 管理 系统 交互 完成 任务 的 执行 。AppLes 采用 分 散 式 调度 、 预 测 启发 式 状态 
估计 、 在 线 再 调度 .以 应 用 程序 为 中 心 的 调度 策略 ,不 提供 QoS。 为 便于 软件 重用 5 ， 
AppLes 进行 了 改进 ,调度 由 两 个 进程 client 和 daemon 完成 ,daemon 完成 配置 ,client 则 与 
HP. 

4. Condor-G 


Conder?*? f£ — 4 Fi e ub ft i SE BE. JH okc FF FRE RE R BE. CL CD" He 90 Id i BE 
Conder-G7, fe Condor 中 ,采用 集中 式 调度 ,用 户 代理 管理 由 应 用 程序 描述 所 组 成 的 对 
列 , 负 责 向 匹配 器 发 出 请 求 , 资 源 代理 实现 资源 所 有 者 策略 ,并 向 收集 器 (Collector) 提 供 资 
源 信息 。 匹 配器 接受 用 户 代理 请 求 ,并 向 收集 器 查询 资源 信息 ,完成 资源 请 求 与 资源 提供 者 
之 间 的 匹配 ,然后 由 匹配 的 用 户 代理 在 相应 的 资源 上 启动 计算 。 它 采用 平面 结构 的 机 器 组 
织 .ClassAd 语言 的 资源 描述 、 分 层 关系 的 命名 空间 不 提供 QoS、 集 中 式 查询 资源 发 现 机 制 
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以 及 定期 push 资源 信息 。 
5. Nimord-G 


Nimord-GBs 9 是 一 个 网 格 资源 代理 ,基于 底层 Globus 或 Legion 提供 的 服务 ,在 计算 
网 格 上 管理 和 控制 参数 扫描 程序 。 资 源 代理 负责 处 理 用 户 请 求 ,收集 当前 资源 信息 ,转化 请 
求 为 任务 并 调度 任务 到 相应 的 资源 上 ,并 收集 计算 结果 返回 给 用 户 。Nimord-G 采用 层次 
结构 ,资源 经 济 模型 .分散 式 调度 、 预 测 价格 模型 .事件 驱动 再 调度 、 以 应 用 程序 为 中 心 的 调 
度 策略 。 


5.2.3 网 格 环境 下 的 资源 调度 策略 


以 上 主要 论 及 构建 一 个 网 格 资源 管理 系统 ,而 如 何在 已 有 的 网 格 基础 设施 之 上 利用 底 
层 提 供 的 功能 进行 有 效 的 资源 管理 和 调度 是 另 一 个 重要 的 研究 课题 。 

并 行 计算 中 ,调度 问题 包括 两 类 一 一 作业 调度 (Job Scheduling) 和 任务 调度 (Task 
Scheduling). EMI 38 BE . X Pes fr nb ici] RE (High Throughput Scheduling) ,是 指 调度 多 个 
相互 独立 的 任务 ,使 这 个 系统 的 利用 率 最 高 。 而 任务 调度 , 又 称 高 性 能 调度 (High 
Performance Scheduling) ,是 指 调度 单个 并 行程 序 中 多 个 具有 数据 依赖 关系 的 任务 ,使 程序 
的 执行 时 间 最 短 。 节 文 研究 作业 调度 。 

调度 有 静态 调度 (Static Scheduling) 和 动态 调度 (Dynamic Scheduling) 两 种 情形 。 当 并 
行程 序 的 属性 ,如 任务 的 执行 时 间 、 通 信和 同步 ,任务 依赖 关系 等 ,能 够 事先 获得 ,而 且 目 标 
系统 是 专用 的 ,那么 可 以 在 编译 时 完成 静态 调度 ,此 时 称 为 编译 时 静态 调度 (Compile-Time 
Static Scheduling); 如 果 目 标 系 统 是 多 用 户 共享 的 ,系统 特性 随时 间 变 化 ,那么 调度 必须 在 
运行 时 完成 , 当 调度 生成 后 不 再 变化 ,程序 按照 调度 方案 完成 ,此 时 称 为 运行 时 静态 调度 
(Run-Time Static Scheduling); 如 果 是 根据 系统 的 变化 ,不 断 修改 调度 方案 , 则 称 为 运行 时 
动态 调度 (Run-Time Dynamic Scheduling) ,简称 动态 调度 。 需 要 说 明 的 是 ,运行 时 静态 调 
度 与 运行 时 动态 调度 之 间 的 区 别 并 不 是 很 严格 ,通常 将 运行 时 静态 调度 方案 作为 动态 调度 
方案 的 基础 。 一 般 来 讲 , 由 于 各 自 优化 的 目标 不 同 , 作 业 调 度 通常 采用 动态 调度 。 

一 个 网 格 应 用 程序 包括 多 个 相互 通信 和 协作 的 任务 ,调度 的 目的 是 将 这 些 任 务 适当 地 
安排 到 资源 上 以 最 有 效 的 方式 执行 。 调 度 应 用 程序 设计 了 一 系列 活动 : 

CD 选择 资源 ; 

(2) 将 任务 分 派 到 计算 资源 上 ; 

G) 分 布 数据 或 者 重 定 位 数据 和 计算 ; 

(4) 在 计算 资源 上 排序 任务 ; 

(5) 对 任务 间 通 信 排 序 。 

上 述 步骤 (1) 通 常 称 为 资源 选择 (Resource Selection) ,资源 发 现 (Resource Discovery). 
资源 选择 是 指 从 资源 池 中 选取 候选 资源 的 过 程 ; 而 资源 发 现 则 是 确定 系统 中 那些 资源 可 以 
供应 用 程序 使 用 。 步 骤 (1) 一 (3)( 称 为 Mapping) 主 要 在 空间 上 分 配 计 算 和 数据 , 步 又 (4) 一 
(5)( 称 为 Scheduling) 则 在 时 间 上 分 配 计算 和 通信 。 两 者 统一 称 为 调度 。 不 失 一 般 性 ,本 书 
将 Mapping 称 为 网 格 资源 环境 下 的 广 域 调 度 ,而 Scheduling 则 称 为 本 地 资源 调度 ,本 书 研 
究 广 域 调度 , 即 Mapping 过 程 , 对 应 步骤 (1) 一 (3) 。 
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针对 传统 计算 网 格 , 即 专用 网 格 , 网 格 环境 下 的 调度 算法 目前 主要 集中 在 扩展 早期 在 异 
构 环境 下 独立 任务 调度 的 研究 ,将 元 任务 (Meta-Task)59 或 任务 包 C 调度 到 网 格 中 不 同 资 
源 域 (Resource Domain) 或 集群 (Cluster) ,这 是 一 个 NP [9] 8807 ,因此 目前 主要 利用 启发 式 
算法 来 解决 此 类 问题 。 

早期 异 构 环境 启发 式 算法 有 : 随机 调度 任务 到 下 一 个 可 用 机 器 上 的 OLBCOpportunistic 
Load Balancing) 977? , 调度 任务 到 最 佳 执行 时 间 机 器 上 的 MET (Minimum Execution 
Time) 79?" ,调度 任务 到 最 小 执行 时 间 机 器 上 的 MCT (Minimum Completion Time)523] 、 
Min-min[23'24,26  Max-minU?7*79. SA (Switching Algorithm )U^79 , Sufferage"* , GA 
(Genetic Algorithms) 77?! |GSA (Genetic Simulated Annealing) 9*9?! , Duplex U97231552 等 。 

参考 文献 [36] 给 出 了 利用 SA 算法 在 网 格 环境 中 进行 任务 调度 的 方法 ; 参考 文献 [37] 
给 出 在 计算 网 格 中 调度 任务 组 的 算法 ; 考虑 到 网 格 中 机 器 的 动态 性 ,复制 多 份 任务 到 网 格 
的 调度 算法 在 参考 文献 [38] 中 给 出 ; 参考 文献 [14.39] 将 Min-min, Max-min, Sufferage 算 
法 扩展 到 网 格 环境 ,并 提出 了 Xsufferage 算法 ; 参考 文献 [40] 结 合 QoS 到 Sufferage 中 , 提 
出 了 改进 的 Sufferage 算法 ; 参考 文献 L41] 给 出 了 计算 网 格 中 基于 期 限 的 客户 /服务 系统 的 
调度 算法 。 参 考 文献 [42] 给 出 GA 算法 在 网 格调 度 上 的 应 用 。 参 考 文献 [43] 对 网 格 中 各 种 
调度 策略 做 出 了 评价 。 以 下 对 其 中 几 种 比较 典型 的 网 格 任务 调度 算法 做 简单 的 分 析 。 

1. MCT 和 MET 算法 

MCT 算法 的 主要 思想 是 分 配 任务 给 完成 时 间 最 早 的 处 理 器 ,这 种 算法 可 能 会 把 一 些 
任务 分 配给 执行 时 间 不 是 最 短 的 处 理 器 。 但 是 ,由 于 算法 根据 最 早 完成 时 间 来 分 配 任务 ,从 
而 可 以 尽量 使 得 处 理 器 间 的 负载 均衡 分 布 。 

MET 算法 的 主要 思想 是 分 配 任务 给 执行 时 间 最 短 的 处 理 器 ,该 算法 的 最 大 优点 是 非 
常 简 单 。 与 MCT 算法 相 比 ,MET 算法 没有 考虑 处 理 器 的 就 绪 时 间 , 因 此 可 能 会 把 很 多 任 
务 分 配给 部 分 处 理 器 ,从 而 导致 处 理 器 之 间 的 负载 不 均衡 。 

2. SA 算法 


SA(Switching Algorithm) 算 法 根据 处 理 器 的 负载 分 布 情况 循环 使 用 MCT 和 MET 算 
法 。 假 定 所 有 处 理 器 的 最 大 准备 时 间 是 xr。 ,最 小 准备 时 间 是 rw, ,那么 处 理 器 之 间 的 负载 
均衡 因子 用 x 一 ran/rmsw 来 表示 ,参数 rx 取 [0,1] 之 间 的 任意 值 。 两 个 阔 值 mos 和 nius ECO, 
1J Via) BE TE RE ,并 且 满 足 条 件 mo* 志 ru。 初始 化 时 ,设置 天 值 为 0。SA 算法 开始 用 MCT 
来 映射 任务 ,在 负载 均衡 因子 增加 到 rm 以 后 , 改 用 MET 算法 来 映射 任务 。 这 样 负载 均衡 
因子 会 开始 下 降 ,当下 降 到 rw 以 后 ,SA 算法 开始 使 用 MCT 算 来 映射 任务 ,如 此 循环 下 去 。 
SA 调度 算法 有 随 网 格 资源 提供 者 的 资源 属性 动态 变化 而 动态 改变 调度 策略 的 自 适应 性 ， 
但 因为 同时 需要 测定 两 个 阅 值 ,并 且 需 要 根据 均衡 因子 切换 调度 算法 ,这 无 疑 增 加 了 额外 
开销 。 

3. Min-min 算法 

算法 首先 计算 当前 元 任务 中 每 一 个 子 任务 的 最 小 完成 时 间 ,然后 将 具有 最 小 完成 时 间 
的 子 任务 分 配给 相应 的 处 理 器 ,同时 更 新 相应 的 处 理 器 的 就 绪 时 间 ,被 分 配 的 子 任务 从 元 任 
务 移 去 ,如 此 重复 分 配 元 任务 ,直至 整个 任务 分 配 完 成 。 该 算法 使 得 处 理 器 的 就 绪 时 间 状 态 
信息 变化 最 小 。 如 果子 任务 t: 和 zi 竞争 处 理 器 hj. Min-min 算法 会 把 对 处 理 器 廊 的 就 绪 
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时 间 做 相对 较 小 改变 的 任务 分 配给 h;。 这 样 ,增加 了 在 处 理 器 h; 上 有 最 早 完成 时 间 
的 可 能 性 。 因 为 t=0 时 ,处 理 器 完成 时 间 最 早 的 任务 就 是 它 执 行 最 快 的 任务 ,如 果 分 配给 
处 理 器 的 大 批量 任务 不 仅 完成 时 间 短 而 且 执 行 快 , 则 获得 的 吞吐 量 将 相对 较 小 。 

4. Max-min 算法 

与 Min-min 算法 类 似 , 一 旦 确定 了 处 理 器 对 每 个 任务 的 最 早 完成 时 间 , 具 有 最 大 的 最 
早 完成 时 间 的 任务 六 将 被 分 配给 相应 的 处 理 器 。 时 间 和 矩阵 C 和 处 理 器 就 绪 时 间 向 量 被 
更 新 ,对 于 剩 下 的 任务 进行 重复 处 理 。 在 得 任务 多 ,长 任务 少 的 情况 下 ,Max-min 算法 的 性 
能 将 会 不 错 。 例 如 ,如 果 网 格 系统 中 仅 含有 一 个 长 任务 ,那么 这 个 长 任务 可 以 与 多 个 短 任务 
并 发 执行 ,这 样 元 任务 的 最 大 完成 时 间 由 最 长 任务 的 完成 时 间 决 定 。 

5. DGS 算法 

DGS(Dynamic Grouping Scheduling) 算 法 的 最 大 特点 在 于 它 采 用 了 一 种 新 的 动态 任务 
分 组 策略 。 这 种 任务 分 组 策略 对 于 网 格 计算 环境 中 的 主机 ,根据 其 计算 能 力 依次 编号 ,对 于 
计算 任务 按照 负载 大 小 依次 编号 ,并 把 计算 任务 根据 其 负载 大 小 与 主机 的 计算 能 力 相 对 应 
地 分 成 | 互 | 组 。 如 果 一 个 任务 的 编号 比 某 个 主机 的 编号 小 ,那么 这 个 主机 就 能 执行 这 个 任 
务 。 这 样 保证 了 一 个 计算 能 力 低下 的 主机 不 会 执行 一 个 计算 量 很 大 的 任务 。 同 时 ,任务 的 
所 属 组 别 可 以 随 资源 属性 的 变化 而 动态 改变 。DGS 算法 主要 利用 DAG( 有 向 无 环 图 ) 进 行 
任务 映射 ,并且 在 异 构 环 境 中 没有 考虑 通信 开销 ,算法 的 时 间 复 杂 度 为 O(| T|?)。 

以 上 算法 通常 都 基于 这 样 的 假设 , 即 每 个 任务 的 执行 时 间 ,所 需 的 数据 在 调度 之 前 是 可 
知 的 ,然后 利用 启发 式 算法 将 任务 调度 到 网 格 中 的 不 同 资源 域 中 。 还 有 另外 一 种 方法 , 即 认 
为 网 格 中 的 资源 信息 很 少 ,应 用 程序 的 执行 情况 事先 难以 预测 ,因此 采用 将 一 个 任务 复制 多 
份 ,由 调度 器 随机 映射 到 不 同 的 资源 域 ,第 一 个 返回 的 结果 将 作为 该 应 用 程序 的 结果 ,同时 
终止 尚 在 进行 的 程序 拷贝 。 

相对 于 以 上 针对 传统 计算 网 格 的 调度 策略 和 算法 而 言 , 还 有 另外 一 类 策略 与 算法 , 即 在 
资源 管理 中 基于 经 济 学 中 的 相关 理论 (如 一 般 均 衡 理论 .拍卖 理论 等 ) ,在 通用 网 格 中 实现 有 
效 的 资源 管理 。 网 格 资源 管理 的 经 济 模型 可 以 分 为 外商 品 市 场 模型 .标价 模型 .议价 模型 、 
合同 网 模型 拍卖 模型 等 ,其 中 以 商品 市 场 模型 与 拍卖 模型 应 用 最 多 ,以 下 对 这 两 个 经 济 模 
型 做 简单 介绍 。 

6. 拍卖 模型 

拍卖 模型 通过 多 个 资源 消费 者 以 不 同 的 价格 竞争 同一 资源 ,最 后 由 拍卖 者 依据 不 同 的 
准则 选 定 投标 人 并 确定 资源 成 交 的 价格 。 这 种 拍卖 模型 有 四 种 基本 类 型 : 上 升 出 价 拍卖 
CAscending-Bid Auction) ,又 称 英国 式 拍 卖 (English Auction); 下 降 出 价 拍卖 (Descending- 
Bid Auction) ,又 称 荷兰 式 拍 卖 ;第 一 价格 暗 标 拍卖 (First-Price Sealed-Bid Auction) ;第 二 
价格 上 暗 标 拍卖 (Second-Price Sealed-Bid Auction) ,又 称 Vickrey 拍卖 。 另 外 还 衍生 出 很 多 
复杂 的 拍卖 机 制 , 例 如 多 个 商品 拍卖 问题 (Multi-Unit Auction) 、 多 个 买方 和 多 个 卖方 的 双 
向 拍卖 (Double Auctions) 等 。 

7. 商品 市 场 机 制 


不 同 于 拍卖 机 制 ,商品 市 场 模型 主要 侧重 于 同 种 商品 。 在 商品 市 场 中 ,不 同 商品 在 市 场 
上 进行 交换 和 消费 ,不 同 商品 在 市 场 上 的 活动 是 相互 联系 和 影响 的 ,因此 存在 一 个 问题 , 即 
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所 有 商品 的 供给 与 需求 能 否 同时 达到 平衡 ,这 即 是 经 济 学 上 的 一 般 平衡 理论 。 目 前 将 商品 
市 场 模型 运用 到 网 格 资源 管理 的 典型 代表 有 G-commerce 和 GRACE。 在 G-commerce"*! 
中 仅 考虑 CPU 和 存储 空间 ,均衡 价格 采用 近似 均衡 ,为 避免 收集 全 局 供求 信息 ,超额 需求 
函数 由 多 项 式 拟 合 。 在 GRACEI9 中 ,在 基于 经 济 学 原理 的 资源 调度 实验 中 ,资源 价格 是 根 
据 资源 的 重要 性 事先 指定 ,因此 难以 保证 其 资源 配置 分 配 决策 的 最 优 性 5 。 

商品 市 场 模型 在 具体 应 用 到 网 格 资源 管理 中 时 存在 以 下 难点 : 模型 中 效用 函数 的 确 
定 ; 均衡 价格 的 确定 。 均 衡 价 格 在 经 济 学 中 通过 Tatonnement 过 程 调整 价格 而 得 到 , 因 
此 需要 指定 高 效 的 计算 均衡 价格 算法 。 在 确定 均衡 价格 时 ,需要 收集 全 局 超额 需求 信 
息 , 因 此 理论 上 需要 全 局 信息 。 均 衡 价格 下 的 配置 是 不 是 最 优 配置 ,需要 进一步 限定 其 
成 立 的 条 件 。 


5.2.4 现 有 研究 的 不 足 与 分 析 


目前 的 网 格 资源 管理 与 调度 可 以 归 为 两 种 模式 : 集中 控制 与 分 散 控制 。 集 中 控制 是 由 
一 个 资源 管理 器 来 统一 管理 资源 的 分 配 和 调度 ,如 Globus, Legion 等 ,为 适应 在 大 范围 的 有 
效 资源 管理 ,通常 集中 控制 采取 分 层 方式 。 分 散 控制 (如 AppLes) 为 每 个 应 用 提供 一 个 负 
责 调度 的 代理 。 前 者 的 扩展 性 存在 局 限 , 并 且 由 于 存在 调度 瓶颈 ,使 得 其 很 难 用 于 分 布 式 系 
统 的 资源 管理 。 后 者 具有 很 好 的 扩展 性 ,但 是 因为 网 格 资源 的 动态 性 以 及 各 个 应 用 调度 器 
各 自 调整 负载 导致 资源 分 配 的 复杂 化 ,因此 稳定 性 不 好 ; 同时 由 于 难以 获得 全 局 的 状态 , 因 
此 ,整个 系统 的 最 佳 调度 性 能 存在 问题 ; 此 外 ,不 同 域 之 间 的 通信 量 很 大 ,由 于 数据 是 分 散 
的 ,不 能 保证 在 多 个 域 之 间 进 行 调度 时 数据 的 一 致 性 。 调 度 算法 研究 也 主要 集中 在 两 个 方 
向 : 基于 启发 式 算法 的 调度 和 基于 经 济 模型 的 调度 。 不 同 的 启发 式 调度 算法 分 别 具 有 各 自 
的 优 缺点 ,例如 MET 算法 不 考虑 处 理 器 的 就 绪 时 间 ,因此 可 能 会 把 很 多 任务 分 配给 部 分 处 
理 器 ,从 而 导致 处 理 器 之 间 的 负载 不 均衡 ; SA 调度 算法 虽然 有 随 网 格 资源 提供 者 的 资源 属 
性 动态 变化 而 动态 改变 调度 策略 的 自 适应 性 ,但 因为 同时 需要 测定 两 个 阔 值 ,并 且 根 据 均衡 
因子 切换 调度 算法 ,无 疑 增加 了 额外 开销 ; Min-min 认为 处 理 器 完成 时 间 最 早 的 任务 就 是 
它 执行 最 快 的 任务 ,因此 如 果 分 配给 处 理 器 的 大 批量 任务 不 仅 完成 时 间 短 而 且 执 行 快 , 则 可 
能 仅仅 获得 相对 较 小 的 吞吐 量 ; Max-min 在 短 任务 多 ,长 任务 少 的 情况 下 执行 性 能 不 错 ; 
等 等 。 另 外 一 方面 ,经 济 模型 在 具体 应 用 到 网 格 资源 管理 和 调度 中 时 也 存在 难点 ,例如 , 效 
用 函数 的 确定 .均衡 价格 的 确定 。 在 网 格 环境 中 需要 指定 高 效 的 计算 均衡 价格 算法 ,理论 上 
需要 收集 全 局 超额 需求 信息 ; 另外 ,均衡 价格 下 的 配置 是 不 是 最 优 配置 ,同样 需要 进一步 限 
定 其 成 立 的 条 件 。 


5.3 kx 


本 书 网 格 计算 部 分 在 分 析 了 网 格 资源 的 研究 内 容 和 目前 存在 的 研究 问题 的 基础 上 , 重 
点 研究 了 以 下 一 些 问题 : 

(1) 何 种 体系 结构 能 够 更 好 地 反映 网 格 资源 提供 者 的 动态 性 、 自 治 性 和 异 构 性 ,能 够 提 
高 网 格 系统 的 鲁 棒 性 和 自 适应 性 ,并 且 能 够 支撑 在 此 基础 上 的 资源 管理 和 调度 等 问题 的 后 
续 研究 。 
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(2) 如 何 进 行 高 效 的 网 格 资源 管理 与 调度 ,实现 网 格 系统 的 动态 调度 和 负载 均衡 。 研 
究 重 点 包括 设计 适合 于 不 同 种 类 网 格 系统 ,如 专用 计算 网 格 和 基于 Web 服务 的 通用 网 格 的 
资源 调度 策略 ,以 解决 现 有 调度 策略 存在 的 一 些 问题 ,提高 调度 性 能 。 

为 此 ,本 书 研究 了 相关 的 模型 和 算法 ,主要 包括 对 等 网 络 模型 .多 代理 模型 及 其 相关 算 
法 ,以 及 服务 发 布 与 服务 发 现 的 算法 等 ,并 通过 大 量 的 理论 分 析 和 实验 验证 提出 的 模型 和 算 
法 的 有 效 性 。 

由 于 网 格 系统 的 一 个 重要 特性 就 是 它 的 动态 性 和 自治 性 , 即 计算 资源 提供 者 隶属 于 不 
同 的 域 . 呈 现 P2P 的 特点 。 在 网 格 环境 中 , 异 构 的 计算 资源 ,例如 个 人 计算 机 、 大 型 集群 ,在 
线 设备 等 可 能 属于 不 同 的 组 织 , 必 须 通 过 各 种 共享 策略 使 之 成 为 网 格 系统 中 的 可 利用 资源 。 
网 格 计算 的 动态 性 表现 在 很 多 方面 : 静态 因素 如 操作 系统 版 本 、 存 储 空间 等 ; 高 度 动态 变 
化 的 因素 包括 可 利用 CPU 工作 负载 以 及 网 络 带 宽 等 。 网 格 资源 管理 方法 必须 考虑 这 些 动 
态 可 变 的 因素 。 如 何 充分 考虑 这 些 动态 的 因素 ,利用 有 效 的 管理 机 制 进行 资源 调度 ,实现 负 
载 均衡 ,是 网 格 资源 管理 要 研究 的 重要 内 容 。 因 此 ,贯穿 本 文 的 一 个 主要 技术 路 线 就 是 如 何 
利用 有 效 的 管理 机 制 ,充分 考虑 网 格 中 动态 的 因素 ,从 而 能 实现 网 格 资源 的 实时 动态 调度 和 
负载 均衡 ,这 体现 在 下 面 列 出 主要 研究 内 容 和 创新 性 工作 中 。 

CD 首先 ,在 分 析 了 网 格 自身 特点 和 发 展 趋势 的 基础 上 ,将 对 等 网 络 方法 引入 网 格 的 资 
源 管理 和 调度 ,设计 了 基于 超级 结 点 对 等 网 络 的 网 格 资源 管理 体系 结构 。 这 种 集中 式 和 分 
布 式 的 混合 结构 设计 ,能 够 解决 现 有 网 格 系统 采用 集中 式 管 理 容易 引起 的 单 点 失效 .性 能 瓶 
颈 等 问题 ,从 而 可 以 更 好 地 描述 网 格 资源 的 动态 性 、 自 治 性 等 特点 ,使 网 格 系统 具有 更 强 的 
鲁 棒 性 和 自 适应 性 ,并 且 有 利于 制定 优化 网 格 资源 管理 和 调度 的 策略 、 算 法。 进一步 ,根据 
网 格 资源 提供 者 的 IP 层 信息 生成 含有 路 由 信息 的 Overlay Network 拓扑 ,并 且 使 用 有 向 图 
表示 该 拓扑 结构 。 这 种 使 用 有 向 图 进行 网 格 拓 扑 结构 表示 的 方式 在 能 够 准确 描述 网 格 资源 
提供 者 的 计算 能 力 的 同时 ,还 能 够 弥补 其 他 现 有 的 资源 信息 表示 模型 的 Overlay 层 路 由 信 
息 不 能 精确 反映 IP 层 路 由 情况 的 不 足 , 同 时 这 种 简单 的 描述 方式 利于 网 格 资源 调度 器 发 气 
网 格 资源 提供 者 和 网 格 任务 之 间 的 对 应 关系 。 

(2) 针对 为 特定 的 科学 应 用 而 设计 的 专用 计算 网 格 的 资源 调度 ,提出 了 基于 树 匹配 的 
nTreeMatch 算法 。 算 法 结合 DAG( 有 向 无 环 图 ) 的 任务 表示 形式 ,通过 树 形 数据 结构 匹配 
的 方法 解决 了 网 格 资源 和 网 格 任务 间 的 映射 问题 。 同 时 算法 充分 利用 Overlay 拓扑 中 结 点 
的 路 由 信息 ,以 轻 量 附加 开销 来 有 效 减少 Overlay 层 上 的 路 由 跳 数 ,使 得 Overlay 层 上 的 路 
由 跳 数 尽量 接近 IP 层 上 的 路 由 跳 数 , 降 低 RDP( 相 对 平均 延迟 开销 )。 理 论 和 模拟 实验 表 
明 在 大 规模 的 网 格 系统 中 ,算法 在 进行 资源 调度 时 可 以 获得 较 高 的 路 由 效率 ,为 路 由 的 状态 
与 效率 折 中 问题 提供 了 一 个 可 行 的 解决 方案 。 

(3) 针对 基于 Web Service 的 通用 网 格 系统 的 资源 调度 ,提出 了 基于 资源 发 现 的 
GChord 算法 。 考 虑 到 网 格 的 动态 性 特征 ,GChord 算法 采用 服务 发 现 的 方式 解决 资源 调度 
问题 ,将 资源 需求 按照 Chord 路 由 协议 在 网 格 中 转发 ,改变 了 传统 的 集中 式 调度 方法 采取 
的 信息 收集 方式 ,能 够 实时 反映 网 格 结 点 的 工作 负载 状态 ,有 效 解 决 由 于 信息 过 时 、 数 据 不 
一 致 而 引起 的 任务 再 调度 问题 。 实 验证 明 ,GChord 算法 可 以 实现 网 格 系统 的 实时 资源 调 
度 , 并 且 使 得 网 格 系统 保持 良好 的 负载 均衡 状态 。 

(A) 在 研究 了 多 代理 技术 和 网 格 计 算 相 互 融合 的 发 展 趋势 的 基础 上 ,为 解决 网 格 资源 
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调度 中 分 散 调度 及 动态 负载 均衡 的 挑战 ,本 书 提出 了 基于 多 代理 协同 计算 的 rwAgent 算 
法 。 算 法 利用 多 代理 技术 ,通过 代理 的 自治 性 和 智能 学 习 , 实 现 网 格 资源 的 分 散 调度 ,同时 
可 以 获得 很 好 的 负载 均衡 效果 。 严 格 的 数学 建 模 和 理论 分 析 证 明 ,rwAgent 算法 可 以 实现 
资源 调度 过 程 中 网 格 系统 的 全 局 负载 均衡 。 实 验 结果 证 明了 算法 的 有 效 性 和 优越 性 。 
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CHAPTER 6 


网 格 资源 管理 体系 结构 Sos 


资源 管理 和 调度 的 目标 是 通过 高 效 的 管理 和 调度 模式 为 多 个 相互 独立 
的 任务 分 配 所 需 的 计算 资源 ,使 系统 的 利用 率 最 高 。 资 源 管理 和 任务 调度 方 
面 的 研究 主要 集中 在 调度 策略 和 具体 的 调度 算法 。 研 究 适用 的 调度 策略 与 
算法 必须 考虑 底层 网 格 基础 设施 的 结构 特性 ,因此 ,在 进行 调度 算法 研究 之 
前 ,需要 了 解 哪 种 体系 结构 更 加 适合 现 有 的 网 格 系统 ,采用 何 种 资源 管理 模 
式 能 够 更 好 地 支撑 后 续 研究 的 成 果 。 本 章 针 对 现 有 资源 管理 模式 不 能 很 好 
地 反映 网 格 资 源 动态 特征 的 问题 ,提出 了 基于 对 等 网 络 的 混合 式 网 格 资 源 管 
理 体系 结构 。 它 是 本 书 网 格 计算 提出 的 一 些 模型 和 算法 的 基础 。 


6.1 网 格 体系 结构 


在 对 网 格 资源 管理 做 相关 研究 之 前 ,需要 首先 对 网 格 的 整体 框架 有 一 个 
全 面 的 认识 , 即 需要 对 网 格 体系 结构 有 充分 的 认识 。 网 格 体系 结构 讨论 了 构 
造 网 格 的 技术 ,给 出 了 网 格 的 基本 组 成 与 功能 ,描述 了 网 格 各 组 成 部 分 的 关 
系 以 及 它们 集成 的 方法 ,刻画 了 支持 网 格 有 效 运转 的 机 制 。 


6.1.1 网 格 的 层次 结构 


目前 网 格 的 结构 是 层次 化 的 ,如 图 6-1 所 示 , 自 下 而 上 的 分 层 组 件 分 别 
如 下 : 

CD 网 格 资源 : 包括 网 络 上 所 有 分 布 的 .可 访问 的 计算 资源 。 仅 仅 实 现 
了 计算 资源 在 物理 上 的 连通 。 

(2) 网 格 中 间 件 : 包括 一 系列 工具 和 协议 软件 。 屏 项 网 格 资源 的 分 布 、 
异 构 特 性 ,提供 透明 一致 的 接口 。 

(3) 网 格 开发 环境 和 工具 : 让 开发 人 员 开 发 不 同 的 应 用 以 及 用 户 代 理 在 
全 局 资源 中 调度 计算 。 

(4) 网 格 应 用 层 : 是 用 户 需 求 的 具体 体现 。 提 供 网 格 入 口 (Grid 
Portals) 技 术 。 
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网 格 应 用 和 网 格 入 中 ”| 网 格 应 用 


开发 环境 和 开发 工具 | 网 格 开发 环境 及 工具 


分 布 资源 粮 合 服务 | 网 格 中 间 件 


本 地 资源 管理 器 
跨 组 织 的 网 络 资源 


图 6-1 网 格 系统 的 组 件 模型 


网 格 资源 


相应 的 网 格 协议 体系 结构 也 是 分 层次 的 ,图 6-2 所 示 是 面向 协议 的 网 格 五 层 体系 结 
PIE, BI Globus 的 体系 结构 。Globus 的 协议 分 为 五 层 : 构造 层 、 连 接 层 、 资 源 层 、 汇 集 层 、 应 
用 层 。 上 述 五 层 ,每 层 都 有 自己 的 服务 .API 和 SDK, 上 层 协议 调用 下 层 协议 的 服务 。 网 格 
内 的 全 局 应 用 都 通过 协议 提供 的 服务 调用 操作 系统 。 


应 用 层 
网 网 
a 资源 层 P 
体 全 
类 传输 层 & 
构 连接 层 构 

网 络 层 

m 链 路 层 


6-2 Globus 网 格 协议 体系 结构 


(1) 构造 层 : 功能 是 向 上 提供 网 格 中 可 供 共享 的 资源 ,它们 是 物理 或 逻辑 实体 。 常 用 
的 资源 包括 处 理 能 力 、 存 储 系统 、 目 录 、 网 格 资源 、 分 布 式 文件 系统 、 分 布 式 计算 机 池 、 计 算 机 
集群 等 。Toolkit 中 相应 组 件 负责 侦 测 可 用 的 软 硬 件 资源 的 特性 、 当 前 负荷 ,状态 等 信息 ,并 
将 其 打包 供 上 层 协 议 调 用 。 

(2) 连接 层 : 是 网 格 中 网 络 事务 处 理 通信 与 授权 控制 的 核心 协议 。 构 造 层 提交 的 各 种 
资源 间 的 数据 交换 都 在 这 一 层 的 控制 下 实现 。 各 资源 间 的 授权 验证 、 安 全 控制 也 在 这 里 实 
HL, TE Toolkit 中 ,相应 组 件 采 用 基于 公 钥 的 网 格 安全 基础 协议 (GSI)。GSI 提供 一 次 登 
录 、 委 托 授权 、 局 域 安全 方案 整合 、 基 于 用 户 的 信任 关系 等 功能 。 资 源 间 的 数据 交换 通过 传 
输 、 路 由 及 名 字 解 析 实 现 。 

(3) 资源 层 : 作用 是 对 单个 资源 实施 控制 ,与 可 用 资源 进行 安全 握手 、 对 资源 做 初始 
化 ,监测 资源 运行 状况 、 统 计 与 付费 有 关 的 资源 使 用 数据 。 在 Toolkit 中 有 一 系列 组 件 用 来 
实现 资源 注册 资源 分 配 和 资源 监视 。Toolkit 还 在 这 一 层 定义 了 客户 端的 C 语言 和 Java 
语言 的 API 和 SDK。 

(4) 汇集 层 : 作用 是 将 资源 层 提 交 的 受 控 资源 汇集 在 一 起 , 供 虚 拟 组 织 的 应 用 程序 共 
享 , 调 用 。 为 了 对 来 自 应 用 的 共享 进行 管理 和 控制 ,汇集 层 提供 目录 服务 、 资 源 分 配 \ 日 程 安 
排 . 资 源 代理 、 资 源 监测 诊断 、 网 格 启动 .负荷 控制 ,账户 管理 等 多 种 功能 。 
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CO 应 用 层 : 是 网 格 上 用 户 的 应 用 程序 。 应 用 程序 通过 各 层 的 API 调用 相应 的 服务 ， 
再 通过 服务 调用 网 格 上 的 资源 来 完成 任务 。 应 用 程序 的 开发 涉及 大 量 库 函 数 。 为 便于 网 格 
应 用 程序 的 开发 ,需要 构建 支持 网 格 计算 的 库 函 数 。 

面向 协议 的 五 层 体系 结构 剖析 了 网 格 的 内 部 构造 ,而 面向 服务 的 开放 网 格 体系 结构 则 
是 为 了 阐明 网 格外 部 功能 特征 '。 同 时 ,网 格 技术 需要 同 现 有 的 主流 技术 相 融 合 ,因此 , 美 
国 的 Argonne 国家 实验 室 、 芝 加 哥 大 学 、 南 加 州 大 学 和 IBM 公司 共同 提出 了 开放 式 网 格 服 
务 体系 结构 (Open Grid Service Architecture,OGSA)。 开 放 网 格 服 务 体 系 结构 结合 了 现 有 
的 网 格 技术 和 Web 服务 技术 ,仍然 采用 Globus 的 五 层 结构 ,如 图 6-3 所 示 。 
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在 网 格 计算 中 有 一 个 十 分 重要 的 概念 , 即 在 动态 的 、 多 机 构 组 成 的 虚拟 组 织 中 协同 资源 
共享 和 问题 解决 。 在 这 里 ,共享 不 仅 停留 在 简单 的 文件 交换 层面 上 ,更 着 重 强 调 直 接 对 计算 
机 、 软 件数 据 以 及 其 他 资源 的 直接 访问 ,这 种 需求 在 工业 、 科 学 研究 等 很 多 领域 都 会 遇 到 。 
同时 ,这 种 共享 必须 是 高 度 可 控 的 ,需要 在 资源 提供 者 和 消费 者 之 间 详 细 地 定义 共享 资源 种 
类 共享 权限 以 及 共享 的 条 件 。 虚 拟 组 织 就 是 基于 这 样 的 一 些 共享 规则 ,由 多 个 机 构 或 个 人 
组 成 的 集合 体 。 组 成 网 格 系统 的 资源 是 广 域 分 散 的 ,不 再 局 限于 单 台 计算 机 和 小 规模 局 域 
网 范围 内 。 网 格 系统 的 最 终 目标 是 将 网 络 上 的 多 种 资源 进行 动态 组 合 ,为 虚拟 组 织 服务 。 

在 OGSA 中 ,基于 服务 导向 和 虚拟 化 ,定义 了 一 组 Grid Service 语义 ,与 宿主 机 环境 相 
结合 来 构建 虚拟 组 织 。 

基本 宿主 机 环境 (Hosting Environment) 如 图 6-4(a) 所 示 ,一 个 简单 的 宿主 机 环境 就 是 
一 个 资源 管理 域内 的 资源 集合 ,为 服务 管理 提供 本 地 设施 。 例 如 ,一 个 J2EE 应 用 服务 器 、 
Microsoft. NET 系统 和 Linux 集群 。 在 OGSA 中 ,用 户 与 环境 的 接口 包括 一 个 Registry, 
一 个 或 多 个 Factory 和 一 个 Mapper 服务 。 每 个 Factory 都 被 记录 在 Registry 中 ,使 得 客户 
端 能 够 发 现 可 用 的 Factory。 当 Factory 接收 到 客户 端 创建 Grid Service 实例 的 请 求 时 ,该 
Factory 激活 宿主 环境 特定 的 功能 创建 一 个 新 实例 ,为 其 分 配 一 个 句柄 ,并 在 Registry 中 注 
册 该 实例 ,并 使 得 该 句柄 对 Mapper 服务 生效 。 各 种 服务 直接 被 映射 到 本 地 操作 上 。 

虚拟 宿主 机 环境 如 图 6-4(b) 所 示 ,在 虚拟 组 织 中 的 资源 将 跨越 多 个 异 构 的 `. 地 理 上 分 
布 的 宿主 机 环境 。 尽 管 如 此 ,通过 使 用 与 基本 宿主 机 环境 中 相同 的 接口 ,客户 端 可 以 访问 这 
种 虚拟 宿主 机 环境 。 在 虚拟 宿主 机 环境 中 ,可 以 创建 一 个 或 多 个 高 层 Factory, 将 创建 请 求 
委派 给 底层 Factory。 同 样 ,可 以 创建 一 个 高 层 Registry, 它 知晓 高 层 Factory 以 及 它们 所 创 
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建 的 服务 实例 ,并 熟悉 特定 于 该 虚拟 组 织 的 服务 管理 策略 。 这 样 , 客 户 端 可 以 使 用 虚拟 组 织 
的 Registry 查找 Factory, 以 及 其 他 与 该 虚拟 组 织 相 关 的 服务 实例 ,并 使 用 Registry 返回 的 
句柄 与 这 些 服务 实例 直接 联系 。 高 层 Factory 和 Registry 都 实现 标注 接口 ,因此 从 用 户 的 
角度 来 看 ,它们 和 其 他 Factory 和 Registry 没有 区 别 。 

在 虚拟 宿主 机 环境 基础 上 ,还 可 以 构建 提供 更 为 复杂 、 虚 拟 化 “聚合 ”或 “ 端 到 端 "服务 
的 虚拟 宿主 机 环境 ,如 图 6-4(c) 所 示 。 在 这 种 情况 下 ,Registry 跟踪 创建 高 层 服 务实 例 的 
Factory, 并 发 布 相关 信息 。 通 过 向 底层 Factory 请 求 创建 多 个 服务 实例 ,并 整合 多 个 底层 服 
务实 例 的 行为 从 而 实现 单一 高 层 服 务实 例 。 


" E2E E2E 
Registry sg) Registry 
F E2E 


(Service) (Service) … (Service)| |<E2E S? CE2E S? … CE2ES 
Factory Mapper 


Sore 


v v v 
国 6 团 用 明 | (839595395 85223333 
(a) 基本 宿主 机 环境 (b) 虚拟 宿主 机 环境 (c) 虚拟 宿主 机 环境 的 聚合 


6-4 ”虚拟 组 织 的 构造 


以 上 几 个 层次 上 虚拟 组 织 实例 ,阐明 了 在 OGSA 框架 下 ,如 何在 多 个 层次 上 构造 虚拟 
组 织 , 实 现 跨 机 构 边 界 的 分 布 资源 整合 以 及 在 商业 IT 基础 设施 内 部 分 布 资源 的 整合 。 
于 向 本 地 平台 资源 和 API 的 映射 而 实现 的 Grid Service, 可 以 无 缝 整合 成 高 度 的 Grid 
Service, 多 个 虚拟 组 织 中 服务 集合 可 以 映射 到 相同 的 地 层 物理 资源 上 ,而 且 在 同一 层 逻 辑 
上 不 同 的 服务 也 可 以 共享 底层 的 物理 资源 系统 。 


6.1.2 计算 经 济 网 格 体系 结构 


网 格 系统 中 的 资源 供需 关系 ,与 现实 世界 中 的 商品 经 济 模型 存在 类 比 关系 : 资源 的 提 
供 者 相当 于 商品 制造 商 , 为 用 户 提 供 计 算 资 源 , 并 从 中 获 利 ; 资源 使 用 者 相当 于 商品 购买 
者 ,为 了 满足 自己 的 资源 需求 支付 一 定 的 费用 。 它 们 都 是 由 利益 驱动 的 ,为 了 获得 最 大 利益 
而 制订 策略 。 据 此 ,Rajkumar Buyya 提出 了 经 济 网 格 及 计算 经 济 网 格 体系 结构 模型 ,如 
图 6-5 所 示 。 

图 6-5 的 模型 侧重 于 研究 网 格 资源 的 分 配方 式 , 主 要 包括 以 下 四 部 分 : 

(1) 网 格 服务 供应 商 (Grid Service Providers): 包括 地 理 上 分 布 的 所 有 互联 资源 和 网 
格 中 本 地 资源 管理 系统 ,主要 是 拥有 资源 的 服务 供应 商 (相当 于 网 格 结 点 ) 对 资源 进行 合理 
的 分 配 ,以 满足 交易 服务 器 和 资源 预 留 的 要 求 。 同 时 服务 供应 商 按 照 经 济 模型 制定 价格 策 
略 和 交易 原则 ,以 求 获得 最 大 利益 。 交 易 服务 器 是 服务 供应 商 本 身 的 代理 程序 ,遵循 价格 策 
略 与 用 户 协商 资源 使 用 价格 ,指导 结账 系统 记录 资源 消耗 情况 。 网 格 服 务 供应 商 和 网 格 用 
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网 格 市 场 服务 器 


网 络 资源 经 纪 层 


网 格 用 户 层 


网 格 服务 供应 商 


图 6-5 计算 经 济 网 格 体系 结构 模型 


户 通过 网 格 银行 和 网 格 市 场 服务 器 进行 结算 。 

(2) 网 格 中 间 件 服务 层 (Grid Middleware Services) : 利用 网 格 中 间 件 实现 了 构造 经 济 
网 格 模型 所 需 的 各 种 服务 ,其 中 包括 登录 、 安 全 和 服务 质量 控制 ,提供 必要 的 网 格 信息 供 网 
格 浏览 器 查找 所 需 资源 ,通过 交易 中 间 件 连接 交易 服务 器 和 交易 管理 器 ,执行 任务 模块 完成 
资源 的 正确 分 配 ,存储 中 间 件 存储 各 种 必要 信息 等 。 

G) 网 格 资源 经 纪 层 (Grid Resource Broker) : 负责 资源 发 现 、 资 源 选择 、 软 硬件 资源 的 
绑 定 ,计算 初始 化 ,单一 资源 映像 等 功能 。 网 格 资源 经 纪 层 由 作业 控制 代理 ,调度 顾问 、 网 格 
浏览 器 、 交 易 管理 器 和 分 布 代理 五 部 分 组 成 。 作 业 控 制 代理 作为 总 控 负 责 监 督 程序 的 执行 ， 
连接 用 户 和 其 余 四 部 分 。 调 度 顾问 负责 资源 发 现 和 资源 选择 。 交 易 管 理 器 是 在 调度 顾问 的 
资源 选择 算法 指导 下 ,评估 资源 的 访问 开销 ,为 调度 顾问 提供 资源 选择 依据 。 分 布 代理 负责 
在 选 定 的 资源 上 激活 任务 ,并 周期 性 地 向 作业 控制 代理 更 新 任务 执行 状态 。 

(4) 网 格 用 户 层 (Grid Consumer): 用 户 对 网 格 系统 提出 自己 的 要 求 ,包括 所 需 资 源 和 
交易 所 必须 的 信息 ,如 价格 .时 间 限 制 、 偏 好 等 。 用 户 可 使 用 网 格 应 用 程序 ,直接 向 网 格 资源 
经 纪 层 提出 要 求 。 或 者 用 户 利用 网 格 语言 编程 环境 .编写 自己 的 网 格 程序 提交 给 网 格 资源 
经 纪 层 。 用 户 可 以 通过 Web 在 远程 资源 上 提交 数据 和 收集 结果 。 


6.2 基于 超级 结 点 对 等 网 络 的 网 格 资源 管理 体系 结构 研究 


我 们 知道 ,未 来 网 格 系统 具有 对 等 网 络 的 特点 ,资源 的 动态 性 和 异 构 性 是 网 格 资源 的 固 
有 特征 ,自治 性 也 是 其 重要 特征 之 一 ,因此 ,网 格 资源 管理 需要 在 已 有 的 分 布 计算 资源 管理 
基础 上 ,融合 对 等 计算 技术 , 作 更 进一步 的 研究 。 本 章 将 对 等 网 络 技术 引入 网 格 计算 ,利用 
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对 等 网 络 的 优点 ,设计 了 混合 式 的 网 格 资源 管理 体系 结构 ,本 节 的 内 容 是 本 书后 续 网 络 计 算 
研究 的 基础 。 


6.2.1 对 等 网 络 组 织 类 型 


目前 对 等 P2P 计算 技术 被 广泛 应 用 于 各 个 领域 ,如 信息 资源 共享 .普及 计算 ,协同 工 
作 、 实 时 通信 技术 、 信 息 检索 技术 .广域网 络 存储 系统 等 。 对 等 计算 技术 的 出 现 使 得 充分 利 
用 互联 网 中 所 蕴含 的 潜在 计算 资源 成 为 可 能 。 对 等 网 络 的 每 个 结 点 既是 客户 机 ,又 是 服务 
器 ,还 是 路 由 器 。P2P 系统 中 的 各 个 结 点 因为 互 为 服务 而 共存 ,而 不 是 依赖 与 特定 的 集中 式 
机 制 。 而 且 , 各 个 结 点 可 以 直接 交互 并 可 能 随时 离开 对 等 网 络 。 与 传统 系统 相 比 ,对 等 网 络 
具有 以 下 特征 : 

(1) 结 点 之 间 通 过 直接 交互 共享 资源 。 

(2) 资源 分 布 在 各 个 结 点 中 ,而 不 是 集中 在 一 个 服务 器 中 进行 管理 。 

(3) 结 点 具有 动态 性 与 即席 性 。 

(4) 纯粹 的 P2P 系统 没有 任何 集中 控制 机 制 。 系 统 的 各 结 点 运行 的 P2P 系统 软件 功 
能 相同 ,各 结 点 之 间 交 互 对 称 。 

和 传统 Client-Server 网 络 相 比 ,对 等 网 络 具 有 如 下 优势 : 

CD 整体 性 能 高 。 对 等 网 络 中 ,没有 服务 器 、 客 户 机 之 分 ,可 以 充分 利用 各 参与 者 提供 
的 共享 资源 ,实现 网 络 整体 性 能 的 最 大 化 。 

(2) 可 扩展 性 好 。 在 对 等 网 络 中 ,系统 自动 适应 参与 者 的 加 入 和 退出 。 随 着 参与 者 的 
增加 ,网 络 规模 越 来 越 大 ,网 络 中 可 共享 的 资源 越 来 越 丰富 。 

G) 容错 性 好 。 当 网 络 中 参与 者 较 多 时 ,资源 宛 余 成 为 必然 ,从 而 保证 了 资源 的 可 得 性 
和 抗 毁 性 ; 元 余 还 可 以 避免 “ 单 点 失效 "问题 。 对 等 网 络 中 参与 者 具有 分 散 性 等 特性 ,这 进 
一 步 提高 了 系统 资源 的 可 靠 性 。 

(4) 信息 内 容 更 丰富 。 各 个 网 络 参与 者 都 可 能 是 信息 提供 者 , 随 着 网 络 规模 的 扩大 , 信 
息 必 将 越 来 越 丰富 。 当 网 络 增长 的 时 候 , 共 享 信息 的 数量 和 范围 都 将 随 之 增长 。 在 一 个 开 
放 网 络 环境 下 ,P2P 网 络 能 够 很 快 积累 相当 丰富 的 信息 。 

(5) 负载 均衡 。 对 等 网 络 环境 下 可 以 根据 策略 灵活 分 布 信息 。 负 载 均 衡 模块 可 以 监控 
各 种 信息 的 流量 和 请 求 率 , 然 后 重新 分 布 这 些 信 息 以 减轻 单个 结 点 的 负载 。 通 过 这 种 负载 
平衡 策略 可 以 提供 分 布 式 Cache 可 以 实现 的 功能 ,但 是 更 简单 而 且 代价 小 。 

现 有 的 对 等 网 络 可 按 结构 特性 和 集中 化 程度 分 类 中 。 按 结构 特性 可 分 为 非 结构 化 对 等 
网 络 和 结构 化 对 等 网 络 。 在 非 结构 化 对 等 网 络 中 ,例如 Gnutella 9 ,对 等 结 点 连接 任意 其 
他 对 等 结 点 构成 对 等 网 络 ,数据 放置 与 对 等 网 络 拓扑 无 关 , 网 络 拓扑 是 ad hoc 的 。 
Chord" , Tapestry“! „Pastry ftl CANG9O 则 属于 结构 化 对 等 网 络 。 这 类 网 络 提供 了 文件 
ID 和 文件 存储 位 置 之 间 的 映射 关系 ,从 而 保证 有 效 路 由 ,并 保证 最 终 找 到 目标 结 点 。 

对 等 网 络 按 集中 化 程度 可 分 为 纯 对 等 网 络 和 混合 对 等 网 络 。 纯 对 等 网 络 ,例如 
Freenet"? ,采用 完全 分 布 的 对 等 网 络 查找 过 程 .网 络 中 每 个 结 点 完全 对 等 。 结 点 在 各 方 
面 , 如 查询 .下 载 和 路 由 等 ,有 相同 的 角色 和 责任 。 混 合 对 等 网 络 ,例如 Napster? wR jj f£ 
中 式 资 源 查找 方法 ,网络 中 结 点 责任 不 完全 对 等 ,处 理 能 力 强 的 结 点 作为 其 他 结 点 的 目录 服 
务 器 。 混 合 网 络 的 特点 是 集中 式 查找 ,分 布 式 下 载 。 
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类 似 Morpheus63 的 超级 结 点 对 等 网 络 系统 是 目前 最 流行 的 文件 共享 系统 之 一 。 超 级 
结 点 对 等 网 络 Kazza 中 是 纯 对 等 网 络 与 混合 对 等 网 络 之 间 的 一 种 折 中 。 在 超级 结 点 对 等 网 
络 中 , 结 点 按 地 理 邻 近 性 划分 为 聚 类 。 每 一 聚 类 内 有 一 个 或 多 个 超级 结 点 。 超 级 结 点 作为 
聚 类 内 其 他 结 点 的 目录 服务 器 。 聚 类 内 的 其 他 结 点 称 为 客户 结 点 。 客 户 结 点 将 查找 请 求 提 
交 给 超级 结 点 并 从 超级 结 点 接收 查找 结果 。 客 户 结 点 与 超级 结 点 之 间 的 关系 类 似 于 混合 对 
等 网 络 中 对 等 结 点 与 集中 式 目录 服务 器 之 间 的 关系 。 超 级 结 点 之 间 采 用 了 纯 对 等 网 络 的 联 
系 方式 , 且 超 级 结 点 接收 客户 结 点 提交 的 查找 请 求 , 并 代表 客户 结 点 路 由 该 查找 请 求 。 由 上 
可 知 , 超 级 结 点 在 路 由 方面 是 对 等 的 ,而 客户 结 点 在 下 载 时 是 对 等 的 。 超 级 结 点 对 等 网 络 就 
是 由 超级 结 点 及 所 属 客户 结 点 所 组 成 的 对 等 网 络 。 

按 超级 结 点 的 组 织 方式 ,超级 结 点 对 等 网 络 可 分 为 结构 化 超级 结 点 对 等 网 络 及 其 非 结 
构 化 超级 结 点 对 等 网 络 。 在 结构 化 超级 结 点 对 等 网 络 中 ,超级 结 点 采用 结构 化 对 等 网 络 的 
组 织 方式 ,例如 Chord, Tapestry, Pastry, CAN 等 ; 而 在 非 结 构 化 超级 结 点 对 等 网 络 中 , 超 
级 结 点 之 间 采 用 非 结构 化 超级 对 等 网 络 的 组 织 方式 ,例如 Freenet, Gnutella 等 。 参 考 文 
献 L[15] 中 提出 了 一 种 非 结 构 化 超级 对 等 网 络 的 结构 。 该 网 络 在 聚 类 内 部 采用 Napster 集中 
式 的 资源 查找 方法 ,在 超级 结 点 之 间 采 用 Gnutella 扩散 查找 方法 。 参 考 文献 [16,17] 中 提 
出 了 一 种 结构 化 超级 结 点 对 等 网 络 ,其 中 的 超级 结 点 对 等 网 络 分 别 采用 CAN 和 Tapestry 
组 织 超级 结 点 。 


6.2.2 各 种 对 等 网 络 分 析 


各 类 对 等 网 络 都 各 有 优 缺 点 9 。 混 合 对 等 网 络 采用 集中 式 目 录 服 务 器 方式 查找 信息 
资源 。 这 种 查找 方式 的 优点 是 查找 效率 较 高 且 易 于 管理 ,但 集中 式 目 录 服 务 器 容易 成 为 单 
点 故障 和 性 能 瓶颈 。 

非 结 构 化 对 等 网 络 的 搜索 过 程 类 似 于 随机 搜索 过 程 。 由 于 数据 的 放置 与 网 络 拓扑 无 
X ,我们 很 难 期 望 非 结构 化 对 等 网 络 获得 较 优 的 查找 路 线 。 对 等 网 络 的 消息 开销 较 大 ,如 
Gnutella 需 采用 扩散 的 方式 转发 查找 请 求 , 并 通过 TTL 控制 扩散 的 深度 。 非 结构 化 对 等 网 
络 的 优点 是 对 网 络 的 动态 性 适应 能 力 强 ; 缺点 是 当 TTL 过 小 时 ,很 难 找到 目标 文件 ,而 当 
TTL 过 大 时 ,由 于 消息 数量 随 着 路 由 的 深入 呈 几 何 指数 增加 ,又 会 在 网 络 上 生成 过 多 的 查 
找 消息 。 

结构 化 对 等 网 络 的 数据 放置 与 网 络 拓扑 相关 。 结 构 化 对 等 网 络 能 保证 路 由 有 效 进 行 。 
但 在 非常 动态 的 网 络 环境 下 , 结 点 的 频繁 加 入 与 退出 需要 较 大 的 维护 开销 ,并 且 当 结 点 退出 
以 后 ,路 由 表 没 有 及 时 重建 也 会 导致 查找 失败 。 

对 等 网 络 由 于 存在 上 述 不 足 ,很 难 扩展 为 大 规模 系统 。 超 级 结 点 对 等 网 络 从 某 种 程度 
上 克服 上 述 对 等 网 络 所 存在 的 缺陷 。 由 于 超级 结 点 作为 客户 结 点 的 目录 服务 器 ,因此 超级 
对 等 网 络 查找 效率 高 于 纯 对 等 网 络 。 与 此 同时 ,由 于 系统 中 有 比较 多 的 超级 结 点 ,超级 结 点 
间 能 有 效 地 平衡 负载 ,从 而 在 一 定 程度 上 减轻 了 单 点 故障 和 性 能 瓶颈 问题 。 与 现 有 的 对 等 
网 络 相 比 ,超级 结 点 对 等 网 络 有 潜在 的 优势 。 


6.2.3 基于 超级 结 点 对 等 网 络 的 网 格 资源 管理 体系 结构 
基于 对 各 种 对 等 网 络 组 织 类 型 的 分 析 ,我 们 认为 ,由 于 超级 结 点 对 等 网 络 的 超级 结 点 间 
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能 有 效 地 平衡 负载 ,从 而 在 一 定 程度 上 减轻 了 单 点 故障 和 性 能 瓶颈 问题 。 同 时 因为 超级 结 
点 是 客户 结 点 的 目录 服务 器 ,其 资源 发 现 和 资源 查找 的 效率 比较 高 ,因此 ,与 现 有 的 对 等 网 
络 相 比 ,超级 结 点 对 等 网 络 具 有 潜在 的 优势 。 基 于 此 ,我们 将 利用 类 似 超级 结 点 对 等 网 络 的 
体系 结构 来 进行 网 格 资源 的 管理 和 调度 。 

Iamnitchic9 提出 : 在 大 规模 ,动态 、 异 构 的 网 格 环境 下 ,可 以 不 失 一 般 性 地 假设 存在 一 
个 或 多 个 超级 结 点 ,每 个 超级 结 点 上 都 记录 有 一 组 资源 信息 。 超 级 结 点 之 间 的 关系 是 对 等 
的 ,它们 在 地 理 上 分 布 、 可 动态 加 入 和 退出 。 这 些 超级 结 点 之 间 的 拓扑 是 可 以 动态 变化 的 ， 
将 它们 之 间 的 连接 拓扑 看 成 是 一 个 覆盖 网 络 (Overlay Network) ,其 拓扑 结构 的 选择 对 网 格 
资源 管理 的 性 能 有 很 大 的 影响 ,好 的 Overlay Topology 将 有 助 于 提高 资源 管理 性 能 。 

本 节 将 网 格 资源 提供 者 组 织 在 一 个 P2P Overlay Network 中 ,网 格 资源 提供 者 可 以 是 
一 台 PC 机 ,或 者 是 具有 很 多 处 理 结 点 的 集群 ,也 可 以 是 一 台 多 功能 设备 ,甚至 是 移动 设备 ， 
例如 PDA、 手 机 等 。 这 些 不 同 种 类 的 网 格 资 源 提供 者 根据 自己 的 地 理 位置 、 兴 趣 、 共 享 方式 
等 组 成 不 同 的 虚拟 组 织 Virtual Organizations, 每 个 VO 中 都 存在 一 个 超级 结 点 来 管理 VO 
内 部 以 及 VO 之 间 的 通信 。 这 些 虚 拟 组 织 之 间 是 相互 对 等 的 ,通过 超级 结 点 进行 相互 通信 ， 
维护 P2P Overlay Network 的 拓扑 结构 。 超 级 结 点 可 以 是 一 个 真正 的 结 点 ,例如 一 台 超 级 
计算 机 的 全 局 管理 结 点 ,也 可 以 是 一 段 驻 留 在 某 个 结 点 上 的 虚拟 程序 。 特 别 地 ,可 以 将 集群 
看 成 是 多 个 结 点 的 集合 ,其 全 局 管理 结 点 为 超级 结 点 (Super Node) ,其 他 计算 结 点 为 客户 结 
点 (Client Node); 将 PC 机 看 成 是 没有 客户 结 点 的 超级 结 点 ; 或 者 将 集群 和 PC 机 看 成 是 
同一 个 VO 内 部 的 客户 结 点 ,而 该 VO 超级 结 点 是 一 个 进程 。 该 进程 可 以 随机 选择 其 驻 留 
的 结 点 ,集群 或 者 PC 机 ,考虑 到 存储 空间 和 处 理 能 力 的 因素 ,以 及 负载 均衡 的 影响 ,在 构建 
VO 时 往往 选择 在 处 理 能 力 强 的 结 点 上 驻 留 此 进程 ,例如 超级 计算 机 或 者 集群 ,而 不 选择 
PC 机 或 者 移动 设备 。 由 这 些 虚拟 组 织 构 成 的 Overlay Network 具有 类 似 超级 结 点 对 等 网 
络 的 拓扑 结构 。 超 级 结 点 之 间 采 用 纯 对 等 网 络 的 连接 方式 。 图 6-7 是 这 种 连接 方式 的 一 个 
简单 示意 图 。 

由 于 每 一 个 资源 提供 者 都 是 这 个 Overlay Network 中 的 一 个 对 等 结 点 。 如 果 一 个 结 点 
失效 了 ,Overlay 网 络 上 的 其 他 结 点 可 以 代替 此 结 点 完成 任务 ,以 此 来 确保 网 格 系统 的 鲁 棒 
性 和 容错 性 。 

图 6-6 所 示 的 每 个 超级 结 点 都 拥有 一 些 共享 内 容 : 其 所 辖 域 内 的 Client Node 的 共享 
内 容 ,如 可 利用 的 CPU 数量 .存储 空间 、 工 作 负载 信息 、 结 点 操作 系统 版 本 等 ; 其 他 对 等 的 
超级 结 点 的 索引 信息 表 的 拷贝 ,各 超级 结 点 利用 该 索引 表 来 维护 Overlay Network 拓扑 结 
构 的 路 由 信息 等 。 超 级 结 点 通过 查找 所 拥有 的 索引 表 ( 包 括 其 他 结 点 的 索引 表 拷 贝 ) 来 响应 
资源 查询 请 求 。 

另外 ,每 个 超级 结 点 上 还 有 一 个 本 地 调度 器 ,这 个 本 地 调度 器 其 实 就 是 一 个 进程 ,负责 
维护 超级 结 点 的 本 地 共享 信息 ,维护 与 其 他 结 点 连接 的 索引 表 , 同 时 负责 客户 结 点 间 的 本 地 
资源 管理 和 调度 。 

由 以 上 分 析 可 知 ,超级 结 点 在 路 由 方面 是 对 等 的 ,而 客户 结 点 在 处 理 网 格 并行 任 务 时 是 
对 等 的 。 

网 格 资源 管理 Overlay Network 的 组 织 方 式 时 有 两 种 选择 : 非 结构 化 组 织 方式 和 基于 
分 布 式 哈 希 表 (DHT) 的 结构 化 组 织 方式 。 在 选择 图 6-6 所 示 的 Overlay Network 的 组 织 方 
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图 6-6 ”基于 超级 结 点 对 等 网 络 的 网 格 资源 管理 体系 结构 


式 时 ,需要 考虑 两 个 方面 的 问题 : 

CD 超级 结 点 之 间 的 对 等 网 络 的 组 织 方式 ,有 两 种 选择 : 结构 化 的 组 织 方式 和 非 结 构 
化 的 组 织 方 式 。 

(2) 虚拟 组 织 内 部 的 客户 结 点 之 间 的 组 织 方式 .也 有 两 种 选择 : 集中 式 ( 如 Napster) 组 
织 方式 和 分 布 式 (如 Gnutella) 组 织 方式 。 

网 格 资源 调度 过 程 中 的 资源 发 现 和 资源 查找 (Mapping 过 程 ) 与 非 结构 化 对 等 文件 搜索 
有 明显 的 不 同 ,区 别 在 于 : 

(1) 网 格 资源 管理 和 调度 过 程 中 ,在 Overlay 中 查找 的 是 可 用 资源 的 信息 ,不 是 文件 ， 
这 些 资源 的 信息 实时 性 高 ,是 动态 变化 的 ,需要 及 时 更 新 ,在 其 他 结 点 做 备份 的 意义 不 大 。 
因此 ,和 分 布 式 哈 希 表 维 护 文 件 存储 必须 考虑 用 缓存 文件 来 提高 查找 性 能 不 同 , 网 格 资源 管 
理 Overlay 中 不 需要 为 实时 的 可 用 资源 信息 进行 大 量 的 缓存 备份 。 在 网 格 系统 中 ,每 个 超 
级 结 点 仅 拥 有 其 所 辖 虚拟 组 织 内 部 的 客户 结 点 的 本 地 共享 信息 以 及 其 他 超级 结 点 的 索引 信 
息 表 的 拷贝 。 

(2) 网 格 资源 管理 和 调度 过 程 中 ,可 利用 资源 信息 的 频繁 更 新 会 带 来 极 大 的 路 由 和 存 
储 空间 开销 ,资源 管理 和 调度 的 效果 以 及 整个 网 络 系统 的 稳定 性 必 将 受到 影响 。 
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在 进行 网 格 资源 调度 时 ,超级 结 点 通过 查找 所 拥有 的 索引 表 ( 包 括 其 他 超级 结 点 的 索引 
表 拷贝 ) 来 响应 用 户 任务 对 网 格 资源 的 请 求 。 如 何 选择 有 效 的 路 由 转发 机 制 对 于 调度 算法 
的 性 能 将 产生 很 大 的 影响 。 在 非 结 构 化 对 等 网 络 中 经 常 采 用 泛 洪 (Flooding) 的 路 由 转发 机 
制 ,但 是 Flooding 方式 往往 会 造成 过 重 的 负载 和 过 多 的 网 络 流量 。 另 外 ,随机 转发 
(Random Walk) 以 及 在 Random Walk 上 演化 出 来 的 路 由 转发 机 制 也 是 可 供 考 虑 和 选择 的 
路 由 转发 机 制 。 

使 用 何 种 方式 组 织 Overlay Network ,采用 何 种 路 由 机 制 进行 信息 转发 ,在 接 下 来 的 几 
章 中 ,针对 具体 的 调度 机 制 和 算法 ,本 节 将 做 详细 的 分 析 和 描述 。 

本 节 设 计 的 网 格 资源 管理 体系 结构 和 现 有 的 网 格 体系 结构 相 比 ,具有 以 下 几 方 面 的 
优点 : 

(D Globus 和 OGSA 的 体系 结构 是 层次 式 的 ,其 面向 协议 的 五 层 结构 在 实现 的 过 程 中 
集合 了 集中 式 和 分 布 式 资源 调度 模式 的 优点 ,能够 在 一 定 程度 上 消除 两 种 模型 的 缺点 ,同时 
在 一 定 程度 上 解决 资源 的 自治 性 、 异 构 性 以 及 扩展 性 等 问题 。 但 是 在 处 理 动态 变化 较 快 的 
资源 环境 时 ,Globus 和 OGSA 显现 了 一 定 的 局 限 性 ,因为 资源 管理 还 是 需要 通过 访问 目录 
服务 器 来 完成 ,这 无 疑 会 造成 信息 的 过 时 和 失效 。 而 本 节 提 出 的 基于 超级 结 点 对 等 网 络 的 
网 格 管理 体系 结构 ,由 于 虚拟 组 织 之 间 采 用 了 对 等 网 络 技术 ,在 处 理 结 点 的 动态 接 人 和 退出 
时 ,只 需要 维护 部 分 邻居 结 点 的 路 由 索引 信息 表 , 或 者 采用 Flooding 的 方式 在 一 定 范围 内 
进行 更 新 ,系统 维护 量 小 ,从 而 可 以 进行 有 效 的 动态 管理 和 调度 。 

(2) 层次 式 管理 模式 的 网 络 拓 扑 结构 一 旦 确定 下 来 ,很 难 改变 ,无 法 自动 地 根据 网 格 结 
点 的 动态 加 入 和 退出 选择 合适 的 连接 拓扑 ,从 而 不 利于 提高 资源 管理 的 性 能 。 而 本 节 设 计 
的 超级 结 点 对 等 网 络 , 超 级 结 点 之 间 的 拓扑 结构 是 可 以 动态 选择 和 变化 的 。 在 资源 提供 者 
发 生变 化 时 ,可 以 根据 网 格 系统 的 实际 情况 ,选择 不 同 的 Overlay Network 的 拓扑 组 织 结 
构 , 从 而 提高 网 格 资源 管理 的 效果 。 


6.2.4 P2P、 网 格 、 基 于 超级 结 点 对 等 网 络 的 网 格 比较 


对 结合 本 节 对 网 格 系统 和 对 等 网 络 的 分 析 , 以 及 基于 超级 结 点 对 等 网 络 的 网 格 系统 的 
设计 , 表 6-1 对 P2P 系统 、 网 格 系 统 和 基于 超级 结 点 的 对 等 网 路 系统 做 了 比较 ,指出 了 三 者 
之 间 的 不 同 。 


表 6-1 P2P、 网 格 和 基于 超级 结 点 对 等 网 络 的 网 格 比 较 


P2P 网 格 基于 超级 结 点 对 等 网 络 的 网 格 
| 通用 /商用 计算 全 局 问题 求解 环境 基于 大 型 机 、PC 机 的 各 种 网 格 计算 
超级 结 点 需 预 先 确定 ,计算 结 点 可 以 随 
志 : i E 
参与 者 | 志愿 者 可 随时 加 入 或 退出 预先 确定 , 需 注册 时 加 入 或 者 退出 
可 靠 性 | 低 : 存在 不 可 信和 的 Peer 高 动态 可 控 
安全 性 | 低 高 基于 应 用 层 的 安全 
可 控 性 | 不 可 控 集中 控制 基于 策略 的 部 分 可 控 
结 点 | Peer: 可 同时 为 服务 器 / 客 Grid: 服务 器 Grid Peer: 超级 结 点 既是 服务 器 又 是 
角色 | 户 端 / 路 由 器 客户 端 和 路 由 器 ; 计算 结 点 为 客户 端 
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P2P 网 格 基于 超级 结 点 对 等 网 络 的 网 格 
网 络 同时 具有 P2P 的 灵活 性 和 网 格 的 安全 
特征 各 种 速度 的 网 络 静态 高 速 性 .可 调度 性 
无 调度 器 的 资源 管理 静态 的 中 央 注 册 中 心 | 分 布 式 的 服务 注册 中 心 
资源 ‘ 基于 资源 发 现 和 网 格 服务 发 现 
调度 基于 资源 发 现 的 调度 集中 式 的 作业 调度 器 分 布 式 和 集中 式 作业 调度 器 


6.3 基于 超级 结 点 对 等 网 络 的 网 格 拓扑 描述 方法 


理想 的 Overlay Network 拓扑 结构 描述 方法 应 该 能 够 准确 表示 网 格 的 物理 连接 信息 、 
反映 IP 层 和 Overlay 层 间 的 对 应 关系 ,还 应 该 能 够 简单 ,高效 地 刻画 可 供 使 用 的 网 格 资源 
信息 ,以 易于 资源 调度 算法 发 掘 资 源 信息 和 任务 请 求 二 者 之 间 的 关系 ,从 而 进行 高 效 的 网 格 
应 用 程序 调度 。 


6.3.1 Overlay Network 拓扑 的 有 向 图 描述 


使 用 有 向 图 (Directed Graph) 来 描述 基于 超级 结 点 对 等 网 络 的 网 格 系统 的 Overlay 
network 拓扑 结构 ,可 以 准确 地 反映 网 格 系统 的 拓扑 连接 方式 以 及 资源 提供 者 的 可 利用 资 
源 信 息 。 在 用 来 表示 网 格 Overlay Network 拓扑 的 有 向 图 中 ,图 上 的 结 点 对 应 着 网 格 资源 
提供 者 , 边 代 表 各 结 点 之 间 的 连接 。 该 方法 定义 如 下 : 

定义 6-1 结 点 的 含义 。 使 用 有 向 图 G 表示 网 格 资源 管理 Overlay Network 拓扑 。 图 
G 中 结 点 的 数量 和 结 点 之 间 的 路 由 连接 关系 是 动态 变化 的 。 结 点 个 数 为 n。 存 在 两 种 类 型 
的 结 点 : 超级 结 点 和 客户 结 点 。 图 G 中 的 超级 结 点 在 路 由 上 是 对 等 的 ,包含 客户 结 点 在 内 
的 图 上 所 有 结 点 在 计算 上 是 对 等 的 。 

定义 6-2 结 点 的 功能 。 所 有 的 结 点 都 是 信息 结 点 。 每 个 结 点 都 包含 一 个 路 由 表 和 信 
息 表 ,路 由 表 记 录 其 他 结 点 的 路 由 信息 ,信息 表 用 来 存储 本 地 资源 信息 。 客 户 结 点 将 本 地 资 
源 信息 和 位 置信 息 提供 给 所 属 的 超级 结 点 ,每 个 超级 结 点 拥有 它 所 辖 虚拟 组 织 域内 的 所 有 
客户 结 点 的 路 由 信息 和 资源 信息 备份 。 超 级 结 点 不 使 用 其 他 的 超级 结 点 进行 信息 缓存 备 


份 , 即 每 个 超级 结 点 的 信息 表 仅 对 本 地 客户 结 点 信息 进行 维护 。 

定义 6-3 边 的 含义 。 如 果 结 点 X 有 一 条 指向 结 点 Y 的 有 向 边 , 则 表示 X 有 指向 Y 的 
路 由 表 项 。 

定义 6-4 结 点 路 由 表 和 信息 表 的 更 新 。 当 网 格 中 有 超级 结 点 加 入 或 者 离开 时 ,只 需 


将 它 维护 的 路 由 信息 表 发 布 给 其 邻居 超级 结 点 ; 如 果 有 客户 结 点 的 加 入 或 离开 时 ,客户 结 
点 将 其 动作 消息 发 布 给 所 属 的 超级 结 点 ,超级 结 点 对 路 由 表 进 行 修改 ,同时 ,此 超级 结 点 通 
知 其 邻居 超级 结 点 进行 信息 更 新 。 当 客户 结 点 更 新 资源 信息 时 ,只 需 更 新 自己 的 消息 表 中 
的 信息 ,然后 将 新 信息 发 送 给 其 超级 结 点 即 可 。 

该 方法 还 定义 了 三 类 有 向 边 : 非 转 发 式 索 引 连 接 (Non-Forwarding Index Link, 
NIL) .转发 式 搜索 连接 (Forwarding Index Link，FSL) 和 非 转 发 式 搜索 连接 (Non- 
Forwarding Search Link. NSL). 
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CD 非 转 发 式 索引 连接 用 单 虚线 箭头 表示 。X-~~Y 表示 在 资源 调度 过 程 中 , 结 点 X 向 
结 点 Y 发 送 自身 的 索引 信息 更 新 ,包含 索引 项 的 增加 、 删 除 和 修改 , 结 点 Y 及 时 更 新 自己 维 
护 的 结 点 X 的 索引 ,但 是 Y 不 再 进一步 转发 该 索引 通知 。 

(2) 转发 式 搜索 连接 用 双 实 线 箭 头 表示 。X=Y 表示 在 网 格 的 资源 调度 过 程 中 , 结 点 X 
向 结 点 Y 发 送 资源 请 求 , 结 点 Y 处 理 这 个 请 求 , 并 进一步 通过 由 YY 出 发 的 FSL 边 转发 查询 

(3) 非 转发 式 搜索 连接 用 单 实 线 箭 头 表 示 。X-~~Y 表示 在 资源 调度 过 程 中 , 结 点 X 向 
结 点 Y 发 送 资源 请 求 , 结 点 Y 处 理 这 个 请 求 ,但 是 结 点 Y 不 再 进一步 转发 该 资源 请 求 。 

在 使 用 有 向 图 表示 网 格 Overlay Network 拓扑 时 ,Overlay Network 中 的 客户 结 点 使 用 
一 条 NIL 和 其 所 属 的 超级 结 点 连接 ; 超级 结 点 使 用 NSL 和 其 所 辖 虚 拟 组 织 内 部 每 个 客户 
结 点 相连 ; 而 超级 结 点 之 间 则 采用 FSL 互 连 。 

基于 以 上 定义 ,网 格 Overlay Network 可 以 被 表述 为 一 个 特殊 的 有 向 图 ,该 图 为 一 个 二 
元 组 (V,E), 还 有 两 个 权 值 函 数 ,tw 和 ww,。(V,E) 决 定 了 网 格 的 拓扑 结构 。 其 中 ,V 是 网 格 
结 点 集合 ,图 中 的 每 个 结 点 唯一 对 应 着 网 格 中 的 一 个 结 点 ,1V|=n, 即 结 点 个 数 ; E 是 网 络 
连接 的 集合 ,是 图 中 连接 边 的 集合 ,1E|==m, 即 图 中 边 的 条 数 。 

E(V,E) 是 1 一 graph, 即 EEVXV。 模 型 中 不 存在 自 环 , 即 不 存在 指向 结 点 自身 的 直 
接 边 。 对 于 边 EW i(e) 表 示 它 的 起 点 ,t(e) 表 示 它 的 终点 。 

两 个 权 值 函数 w, 和 ww, ,分 别 对 应 结 点 的 权 值 和 边 的 权 值 。w,:V 习 R M w, E>R,R 
代表 正 有 理 数 集 。 结 点 v 的 权 值 是 结 点 可 以 提供 的 计算 资源 的 量化 表示 ; 边 。 的 权 值 表示 
从 边 巨 起 点 i(e) 到 终点 i(e) 花 费 的 时 间 , 例 如 ,zw,(X) 二 mm， 
含义 为 网 格 结 点 X 当前 可 提供 的 计算 资源 数量 ,用 系统 的 
benchmark 值 量化 表示 m 个 计算 单元 ,此 benchmark 值 由 不 
同 的 网 格 系统 在 初始 化 时 自行 规定 。w,(L) 二 nn, 含 义 为 从 边 
L 的 起 点 到 终点 的 时 间 耗 费 为 n (单位 为 ps) ,此 路 由 单位 的 
值 可 以 通过 基准 测试 结合 程序 中 的 操作 数 等 信息 来 估计 。 
结 点 X 的 邻居 结 点 集合 表示 为 neighbor(X)。 

图 6-7 所 示 为 该 有 向 图 的 可 视 化 形式 ,所 有 的 边 连 接 用 ”图 6-7 有 向 图 模型 描述 网 格 
不 同 的 箭头 表示 ,表示 结 点 的 权 值 标记 在 结 点 内 , 边 的 权 值 资源 覆盖 网 
标记 在 边 的 旁边 ,如 果 权 值 为 == , 则 不 标记 。 


6.3.2 相关 工作 比较 


由 Brain F. Cooper 和 Hector Garcia-Molina 提出 的 用 于 研究 对 等 网 络 中 的 资源 查找 
的 SIL(Search/Index Link) 模 型 "中 也 使 用 有 向 图 来 描述 网 络 拓扑 ,图 的 顶点 对 应 网 络 的 
结 点 , 边 代 表 网 络 中 结 点 之 间 的 连接 。 在 SIL 模型 的 有 向 图 中 ,存在 四 种 类 型 的 有 向 边 : 转 
发 式 搜索 连接 , 非 转发 式 搜索 连接 、 转 发 式 索 引 连接 (Forwarding Index Link,FIL) 以 及 非 
转发 式 索 引 连 接 。 和 本 书 的 有 向 图 表示 方法 的 定义 相 比 ,SIL 模型 多 了 转发 式 索引 连接 
FIL 的 边 。 

本 书 之 所 以 仅 定义 三 种 类 型 的 边 来 表示 结 点 之 间 的 连接 ,是 由 网 格 资源 管理 和 调度 的 
自身 特点 决定 的 。 


131 
第 6 章 网 格 资源 管理 体系 结 


首先 ,网 格 资源 管理 Overlay Network 和 SIL 表示 的 查找 网 络 存在 不 同 。 具 有 超级 结 
点 的 查找 网 络 包 括 两 种 行为 : 一 种 是 查询 ,一 种 是 索引 更 新 。 查 询 往往 由 客户 结 点 发 起 , 通 
过 超级 结 点 之 间 的 连接 将 查询 请 求 在 整个 Overlay 网 络 中 传播 。 因 此 ,客户 结 点 使 用 FSL 
和 超级 结 点 连接 ,超级 结 点 间 也 使 用 FSL 互 连 。 索 引 更 新 也 是 由 客户 结 点 发 起 , 当 一 个 客 
户 结 点 加 入 或 者 退出 ,或 者 其 状态 发 生变 化 时 ,通过 一 条 NIL 通知 其 超级 结 点 即 可 。 

网 格 资源 管理 也 包括 两 种 行为 : 一 种 是 资源 调度 ; 一 种 是 结 点 索引 更 新 ,包括 结 点 的 
加 入 .退出 和 实时 信息 更 新 。 网 格 资源 管理 过 程 中 的 索引 更 新 和 查找 网 络 的 索引 更 新 是 类 
似 的 : 客户 结 点 发 生 状态 改变 ,只 需 通 过 一 条 和 超级 结 点 相连 的 NIL 连接 ,将 新 的 状态 传递 
给 超级 结 点 进行 更 新 ; 同时 ,网 格 资源 调度 和 分 布 式 文件 存储 不 同 ,不 需要 对 结 点 的 实时 信 
息 进 行 缓存 备份 ,因为 动态 的 信息 更 新 使 得 路 由 和 存储 的 开销 太 大 。 定 义 6-2 和 定义 6-4 
规定 ,超级 结 点 在 本 地 维护 其 客户 结 点 的 资源 信息 ,不 需要 使 用 其 他 结 点 进行 备份 ,信息 更 
新 时 客户 结 点 仅 需 要 通知 其 超级 结 点 ,而 超级 结 点 不 需要 向 其 他 邻居 超级 结 点 转发 该 消息 。 
此 动作 是 单 向 的 。 所 以 ,只 需要 使 用 一 条 由 客户 结 点 指向 超级 结 点 的 NIL 即 可 表示 网 格 资 
源 调度 Overlay 网 络 的 索引 连接 。 

其 次 ,网 格 中 的 资源 调度 过 程 却 是 查找 网 络 中 查询 行为 的 逆 过 程 。 本 章 讨 论 的 广 域 资 
源 调度 在 由 超级 结 点 组 成 的 对 等 网 络 中 进行 ,客户 结 点 不 参与 广 域 资源 调度 过 程 。 所 以 ,在 
资源 调度 过 程 中 ,超级 结 点 首先 接收 到 用 户 任 务 对 可 用 资源 的 请 求 , 由 超级 结 点 将 此 请 求 转 
发 到 客户 结 点 ,如 果 在 某 个 虚拟 组 织 内 部 不 能 找到 合适 的 资源 时 ,超级 结 点 再 将 此 请 求 沿 着 
由 其 出 发 的 FSL 连接 转发 给 其 他 虚拟 组 织 。 而 在 查找 网 络 中 ,查询 请 求 首先 由 客户 结 点 转 
发 到 超级 结 点 ,然后 再 在 超级 结 点 间 转 发 。 因 此 ,在 本 章 的 有 向 图 表示 方法 中 ,超级 结 点 使 
用 指向 客户 结 点 的 NSL 和 其 所 在 虚拟 组 织 内 部 每 个 客户 结 点 连接 ,而 超级 结 点 之 间 则 采用 
FSL 互 连 ,表示 方向 和 SIL 的 方向 相反 。 


6.4 本 章 小 结 


本 章 在 分 析 了 现 有 网 格 资源 管理 体系 结构 、 各 种 对 等 网 络 组 织 结构 的 基础 上 ,提出 了 基 
于 对 等 网 络 的 网 格 资源 管理 体系 结构 ,此 结构 采用 类 似 超 级 结 点 对 等 网 络 的 结构 进行 网 格 
资源 的 管理 ,从 而 更 好 地 描述 网 格 资源 的 动态 性 ,使 网 格 系统 具有 很 好 的 鲁 棒 性 和 容错 性 ， 
消除 单 点 失败 和 性 能 瓶颈 的 问题 。 进 一 步 , 本 章 论 述 了 使 用 有 向 图 表示 网 格 Overylay 
Network 拓扑 结构 的 方法 ,给 出 了 有 向 图 的 结 点 和 边 的 详细 定义 。 对 如 何 进行 Overlay 组 
织 形式 和 路 由 转发 机 制 进行 了 讨论 。 本 章 的 工作 是 以 后 各 章 提 出 的 算法 的 研究 基础 。 
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7.1 基于 树 匹 配 的 网 格 资源 调度 算法 研究 


影响 网 格 资源 调度 算法 性 能 的 因素 有 : 资源 描述 ,任务 请 求 描述 .拓扑 结 
构 .消息 的 路 由 机 制 等 。 本 节 提 出 了 基于 树 匹 配 的 网 格 资源 调度 nTreeMatch 
算法 。 算 法 尤其 适用 于 为 解决 任务 并 行 度 高 的 计算 密集 型 科学 应 用 而 设计 
的 专用 计算 网 格 。 使 用 DAG( 有 向 无 环 图 ) 描 述 网 格 任务 ,在 调度 过 程 中 充 
分 利用 描述 Overlay Network 拓扑 结构 的 有 向 图 中 的 结 点 资源 信息 和 路 由 
信息 ,尽量 使 Overlay 层 上 的 路 由 跳 数 接近 IP 层 上 的 路 由 跳 数 ,降低 RDP. 
大 量 的 实验 证 明 算 法 能 很 好 地 进行 网 格 资源 的 动态 调度 ,具有 良好 的 负载 均 
衡 效 果 。 


7.1.1 网 格 资源 信息 描述 方法 


理想 的 网 格 资源 信息 描述 方法 应 该 在 准确 描述 网 格 资源 提供 者 的 计算 
能 力 的 同时 ,还 能 够 利于 网 格 资源 调度 器 发 掘 网 格 资源 提供 者 和 网 格 任务 之 
间 的 对 应 关系 ,此 外 ,还 应 该 能 够 反映 资源 提供 者 之 间 的 相互 关系 ,例如 路 由 
连接 .从 属 关系 等 。 

nTreeMatch 算法 在 选择 网 格 资源 信息 描述 方法 时 ,采用 了 第 6 章 提出 
的 网 格 Overlay Network 拓扑 有 向 图 表示 方法 。 如 定义 6-2 所 述 ,该 有 向 图 
中 的 每 个 结 点 都 包含 一 个 信息 表 和 一 个 路 由 表 。 信 息 表 记录 了 该 网 格 结 点 
当前 的 计算 能 力 , 如 果 结 点 为 超级 结 点 , 则 表示 所 辖 域内 所 有 客户 结 点 的 计 
算 能 力 。 路 由 表 存 储 了 该 结 点 的 位 置信 息 , 以 及 和 其 他 结 点 的 路 由 连接 情 
况 , 客 户 结 点 仅 维护 和 其 超级 结 点 的 连接 ,而 超级 结 点 除了 需要 维护 其 所 辖 
域内 的 链 路 信息 外 ,还 需要 维护 和 其 他 超级 结 点 间 的 路 由 信息 。 如 果 在 生成 
此 有 向 图 时 考虑 网 格 结 点 IP 层 上 的 物理 连接 信息 ,生成 含有 最 短路 由 耗费 
信息 的 路 由 表 , 那 么 在 此 基础 上 设计 的 调度 算法 的 路 由 开销 也 会 相应 地 降 
低 ,Overlay 层 上 的 路 由 跳 数 将 尽量 接近 IP 层 上 的 实际 路 由 开销 ,算法 的 相 


134 


等 网 络 、 网 格 计算 与 云 计算 一 一 原理 与 安全 


对 平均 延迟 开销 (Relative Delay Penalty，RDP) 很 低 , 调 度 效 率 也 将 大 大 提高 。RDP 为 
Overlay 网 络 逻辑 跳 数 (Hop) 与 底层 物理 跳 数 (IP 跳 数 ) 之 间 的 比值 。 


7.1.2 网 格 任务 描述 方法 


本 节 将 对 任务 请 求 的 描述 方法 进行 研究 讨论 。 在 进行 任务 请 求 描述 方法 研究 时 ,除了 
考虑 如 何 精确 表示 任务 数据 集 . 用 户 的 QoS 要 求 等 基本 要 素 外 ,还 应 该 考虑 如 何 简 单 .明确 
地 发 掘 与 网 格 资源 信息 之 间 的 关系 ,以 提高 资源 调度 算法 的 效率 。 在 研究 了 描述 并 行 任 务 
的 DAG 模型 的 基础 上 ,本 节 提 出 了 使 用 有 向 无 环 图 进行 网 格 任务 描述 的 方法 ,该 方法 可 以 
简单 地 描述 任务 数据 集 和 用 户 的 QoS, 并 且 和 第 6 章 提 出 的 网 格 资源 信息 有 向 图 表示 方法 
有 很 高 的 相似 性 ,这 将 利于 后 续 的 基于 匹配 的 网 格 资源 调度 算法 的 研究 。 

1. 基本 DAG 模型 简介 

通常 并 行程 序 使 用 一 个 加 权 的 有 向 无 环 图 (DAG) 表 示 , 图 中 的 结 点 表示 任务 , 边 表 示 
任务 间 通 信 以 及 数据 依赖 关系 。 形 式 化 表示 为 : G=(V.E.C,M). f A v€ V 表示 一 个 计 
算 开销 为 C(v) 的 任务 ,有 向 边 (u,v) CE 表示 任务 的 先后 关系 , 即 任务 u 完成 后 ,任务 v A 
能 开始 ,另外 ,任务 wx 完成 后 会 发 送 消息 给 任务 w ,其 通信 开销 为 M(u,v)。 如 果 这 两 个 任务 
分 配 到 同一 个 处 理 结 点 上 , 则 认为 通信 开销 为 0。 如 果 存 在 一 条 从 wx 到 wv 的 路 径 , 则 称 u 为 
v 的 前 驱 结 点 ,wv 为 的 后 继 结 点 。 特 别 的 ,对 于 (x,u)E 巨 , 称 x ON o 的 立即 前 驱 结 点 ( 计 为 
u€ IPred(v)) «v H u 的 立即 后 继 结 点 ( 计 为 wvE1Succ(u))。 没 有 任何 前 驱 结 点 的 结 点 称 为 
入 结 点 (Entry Node) ,而 没有 任何 后 继 结 点 的 结 点 称 为 出 结 点 (Exit Node) 。 并 行程 序 的 通 
信 计 算 比 CCommunication-to-Computation-Ration，CCR) 定 义 为 任务 图 中 平均 通信 开销 比 
上 平均 计算 开销 。 

结 点 v 的 高 度 记 为 height(v)。height(v) 计 算 如 下 : 如 果 该 结 点 没有 前 驱 结 点 ,其 高 度 
为 0; 否则 ,其 高 度 为 所 有 前 驱 结 点 高 度 值 的 最 大 值 加 1。 

例如 ,在 图 7-1(a) 中 ,任务 的 权 值 和 边 的 权 值 分 别 表 示 为 任务 的 计算 开销 和 任务 之 间 的 
通信 开销 。 任 务 tl 的 计算 开销 为 3, 而 从 tl 到 t3 的 通信 开销 为 2。tl 是 t3 的 立即 前 驱 结 


点 ,t3 AE tl 的 立即 后 继 结 点 。tl 是 入 结 点 ,而 t6 和 1t7 是 出 结 点 。 其 通信 计算 比 CCR 为 
1.01. 任务 世 、t2、t3、t4、t5、t6、t7 的 高 度 值 分 别 是 0、1、1、2、3、3、4。 
P2 
tl 
t3 
13 
t5 
20 
t 
23 
(a) 一 个 简单 的 任务 图 (b) 一 个 调度 方案 ， 
调度 长 度 为 23 
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图 G 的 调度 记 为 SCG) ,是 将 任务 映射 到 处 理 结 点 上 ,并 分 配 每 个 任务 的 开始 时 间 , 例 
如 任务 vEV 上 在 处 理 结 点 p(v)EP 的 开始 时 间 为 ST(v,p)。 这 样 ,任务 v 在 处 理 结 点 p 
的 完成 时 间 FT Co» 20 ,可 以 从 公式 FT(v,p) 二 ST(v,p) 十 C(v) 计 算得 到 (如 果 没 有 将 v 分 
配 到 户 , 那 么 执行 时 间 FT(v,p) 二 0)。 一 个 结 点 可 以 映射 到 几 个 处 理 结 点 上 , 即 任务 复制 。 
调度 s 的 长 度 ,定义 为 所 有 任务 完成 时 间 的 最 大 值 . 即 makespan(S) 二 max{FT(v,p)|v€ 
V.pEP}. 

例如 ,图 7-1(b) 所 示 就 是 图 7-1(a) 中 DAG( 有 向 无 环 图 ) 的 一 个 调度 ,其 中 ,任务 t 和 
t3 都 被 复制 ,调度 长 度 makespan 为 23。 调 度 目标 是 ,对 于 给 定 的 DAG 图 G=(V,E,C, 
MD ,寻找 具有 最 小 调度 长 度 的 一 个 调度 方案 , 即 Min{ makespan(S) Y S}. 

在 用 DAG 模型 对 并 行程 序 建 模 过 程 中 ,程序 中 的 循环 不 能 显示 出 来 ,但 是 可 以 利用 循 
环 展开 的 方法 将 循环 分 解 为 多 个 任务 中 。 对 于 多 数 数值 计算 程序 ,循环 的 上 下 限 基 本 上 在 
编译 时 都 可 以 获得 。 而 且 , 对 于 多 数 科学 工程 中 的 算法 ,其 中 的 分 支 和 不 确定 性 很 少 。 因 
此 ,DAG 模型 可 以 比较 精确 地 表示 并 行程 序 。 

结 点 的 权 值 (任务 的 计算 开销 ) 和 边 的 权 值 (任务 之 间 的 通信 开销 ) 可 以 通过 基准 测试 结 
合 程 序 中 的 操作 数 等 信息 来 估计 5 。 

2. 网 格 任务 的 DAG 表示 

上 述 模 型 是 基本 的 DAG 模型 ,在 做 研究 时 可 以 根据 具体 的 实验 环境 ,不同 的 假设 得 到 
不 同 的 DAG 模型 。 本 节 研 究 的 是 网 格 计算 环境 中 的 任务 表示 模式 ,因此 ,根据 网 格 并 行 任 
务 的 特点 ,设计 了 网 格 环境 中 任务 的 DAG 表示 形式 。 

参考 文献 [5] 将 分 布 式 并 行 计算 分 为 两 种 模式 : 一 种 模式 是 协作 模式 ,将 任务 分 解 成 一 
些 独立 的 子 任 务 , 计 算 过 程 中 ,各 个 子 任务 需要 其 他 子 任务 的 中 间 结 果 , 它 们 之 间 需 要 同步 ， 
确保 子 任务 的 同时 开始 和 同时 结束 ; 另 一 种 模式 是 非 协作 模式 ,分 解 后 的 各 个 子 任 务 在 相 
应 的 工作 站 上 执行 ,中 间 不 需要 进行 同步 ,不 需要 交换 彼此 的 中 间 结 果 , 最 后 将 子 任务 执行 
结果 汇聚 成 最 终结 果 。 大 量 研究 表明 ,适合 在 网 格 中 运行 的 任务 应 该 具有 高 并 行 度 、 各 
个 子 任务 之 间 通 信和 量 低 的 特点 ,因为 网 格 资源 的 地 理 分 散 性 和 异 构 性 使 得 网 络 通信 开销 
成 为 影响 网 格 性 能 的 一 个 重要 因素 。 当 前 大 部 分 成 功 的 网 格 应 用 项 目 往往 用 来 处 理 非 
协作 模式 的 并 行 计算 ,例如 ,SETI@homer*。 因 此 ,本 节 主 要 进行 非 协 作 模 式 的 网 格 并 
行 计算 研究 。 

首先 将 用 户 提交 的 网 格 任务 划分 成 多 个 并 行 的 子 任务 ,划分 方法 可 以 根据 具体 的 网 格 
任务 特征 选择 使 用 不 同 的 算法 ,例如 并 行 高 斯 消除 算法 外 等 。 然 后 使 用 有 向 无 环 图 (DAG) 
来 表示 这 些 并 行 子 任务 ,这 是 一 个 DAG 模型 的 拓扑 排序 过 程 。 因 为 子 任务 之 间 相 互 不 耦 
合 、 不 通信 ,并行 度 高 ,因此 此 DAG 模型 可 以 转化 成 一 棵 nn AT, 

CO 树 的 特征 。 此 树 是 一 棵 高 度 为 2 的 n 叉 加 权 树 。 在 网 格 系统 中 ,进行 任务 并 行 化 
的 结 点 往往 会 负责 收集 此 任务 的 各 个 子 任务 的 计算 结果 ,进行 后 续 的 处 理 。 在 研究 具有 超 
级 结 点 对 等 网 络 的 网 格 时 ,可 以 确定 n 叉 树 的 高 度 为 2。 

(2) 根 结 点 的 含义 。 根 结 点 对 应 进行 任务 并 行 化 和 收集 结果 的 超级 结 点 ,是 网 格 任务 
的 开始 。 根 结 点 的 权 值 代表 进行 任务 并 行 化 和 结果 收集 所 需 的 单位 计算 资源 的 数量 。 

(3) 叶子 结 点 的 含义 。 叶 子 结 点 对 应 不 同 的 子 任务 ,其 权 值 代表 完成 此 子 任务 需要 的 
单位 计算 资源 的 数量 。 
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7.1.3 ”基于 树 匹配 的 网 格 资源 调度 算法 研究 


在 对 网 格 资源 信息 表示 方法 、 任 务 的 描述 形式 进行 了 相应 分 析 的 基础 上 ,本 节 提 出 基于 
树 匹 配 的 网 格 资源 调度 算法 nTreeMatch。 该 算法 充分 利用 了 网 格 资源 信息 表述 方法 和 网 
格 任务 描述 方式 二 者 之 间 的 相似 性 ,利用 匹配 的 方法 来 实现 网 格 的 资源 调度 。 

1. nTreeMatch 算法 的 设计 思想 

网 格 资源 信息 用 一 个 加 权 的 有 向 图 模型 表示 , 即 G= (VE); 图 中 的 每 个 结 点 V 一 一 
对 应 网 格 结 点 ,包括 超级 结 点 和 客户 结 点 ; V 的 权 值 代表 某 个 网 格 结 点 当前 可 提供 的 计算 
资源 的 数量 。 

网 格 并 行 任务 用 一 棵 叉 加 权 树 表示 , 树 的 根 结 点 对 应 进行 任务 并 行 化 和 收集 结果 的 
网 格 结 点 ,叶子 结 点 对 应 不 同 的 子 任务 ; 根 结 点 的 权 值 表 示 进 行 任务 并 行 化 和 结果 收集 需 
要 计算 资源 ,叶子 结 点 的 权 值 表示 完成 此 子 任务 需要 的 单位 计算 资源 的 数量 ; 在 子 任务 之 
间 相 互 不 耦合 ,不 通信 的 情况 下 ,” 又 加 权 树 的 高 度 为 2。 

因为 网 格 资源 信息 和 并 行 任务 最 终 使 用 加 权 有 向 图 和 加 权 树 来 描述 ,所 以 可 以 将 网 格 
资源 的 调度 问题 转换 为 两 种 数据 结构 间 的 匹配 问题 , 即 通过 图 和 树 之 间 的 匹配 算法 进行 网 
格 资源 的 调度 。 

在 这 两 种 加 权 的 数据 结构 的 匹配 过 程 中 ,可 以 借助 有 向 图 的 最 小 生成 树 来 简化 匹配 算 
法 。 因 此 ,首先 为 加 权 有 向 图 表示 的 网 格 资源 Overlay Network 找到 一 棵 最 小 生成 树 ,此 最 
小 生成 树 也 是 一 棵 加 权 树 , 树 上 结 点 的 权 值 代表 网 格 结 点 当前 可 以 提供 的 计算 资源 的 数量 ， 
边 表示 结 点 间 的 连接 情况 。 

至 此 ,网 格 资源 的 调度 问题 可 以 通过 两 棵 树 的 匹配 来 完成 , 即 网 格 资源 Overlay 
Network 的 最 小 生成 树 和 树 高 为 2 的 网 格 任务 n 叉 树 之 间 的 匹配 。 

设计 资源 调度 算法 的 过 程 中 ,需要 考虑 以 下 的 两 个 问题 : 

(1) 正确 选择 维护 网 格 资源 信息 Overlay Network 拓扑 的 协议 。 

(2) 正确 选择 路 由 转发 协议 。 

好 的 路 由 选择 机 制 能 够 有 效 控制 路 由 信息 的 数量 ,降低 网 络 路 由 和 存储 空间 开销 ,提高 
算法 的 效率 。 好 的 拓扑 协议 可 以 对 网 络 中 的 资源 信息 和 路 由 信息 进行 高 效 的 管理 ,另外 ,如 
前 所 述 , 如 果 在 生成 Overly Network 拓扑 时 考虑 网 格 结 点 的 物理 连接 ,生成 含有 最 短路 由 
信息 的 路 由 表 ,那么 在 进行 资源 调度 时 ,路 由 表 能 够 反映 资源 结 点 物理 网 的 实际 连接 情况 
路 由 开销 将 尽量 接近 物理 网 的 实际 路 由 ,从 而 进一步 提高 资源 调度 算法 的 效率 。 

1) 网 格 资源 Overlay Network 拓扑 协议 

现 阶段 ;有 结构 化 和 非 结 构 化 两 种 对 等 网 络 的 拓扑 协议 可 以 用 来 维护 这 个 资源 
Overlay, JE Overlay 采用 超级 结 点 对 等 网 络 的 结构 ,超级 结 点 数量 相对 较 少 ,并 且 相 对 稳 
定 , 因 此 ,两 种 方式 都 是 可 以 考虑 的 协议 。 基 于 对 两 种 拓扑 协议 的 分 析 , 必须 综合 考虑 拓扑 
协议 对 应 的 路 由 协议 对 资源 调度 产生 的 影响 。 

非 结 构 化 路 由 协议 往往 采用 Flooding 方式 进行 结 点 间 的 消息 通信 ,在 进行 资源 调度 
时 ,这 种 方式 必 将 带 来 过 多 的 网 络 流量 .网 络 带宽 被 大 量 的 广播 消息 所 占据 ,导致 系统 整体 
性 能 急剧 下 降 。 此 外 采用 TTL 值 来 限制 消息 传播 的 半径 ,可 能 导致 目标 结 点 在 传播 半径 
以 外 时 的 情况 下 不 能 得 到 此 消息 ,系统 的 可 扩展 性 不 好 。 
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在 进行 资源 调度 相关 的 消息 传播 时 ,使 用 分 布 式 喻 希 表 DHT 不 会 产生 过 多 的 网 络 流 
量 ,因此 通信 开销 相对 较 低 ,这 一 点 对 于 提高 网 格 系统 的 性 能 尤为 重要 。 同 时 ,根据 定义 6-2 
和 定义 6-4 ,使 用 有 向 图 表示 的 网 格 资源 信息 Overlay 层 上 的 每 个 结 点 都 包含 一 个 路 由 表 和 
信息 表 , 记 录 本 地 资源 的 特征 和 位 置信 息 。 超 级 结 点 仅 维护 其 客户 结 点 的 本 地 资源 信息 ,并 
不 对 其 他 超级 结 点 的 资源 信息 进行 备份 ,信息 更 新 时 客户 结 点 仅 需要 通知 其 超级 结 点 ,而 超 
级 结 点 不 需要 向 其 他 邻居 超级 结 点 转发 该 消息 。 由 此 分 析 可 得 ,并 不 需要 使 用 DHT 进行 
结 点 信息 表 维 护 ,也 就 是 说 ,在 DAT 协议 维护 的 Overlay 中 并 不 会 存在 大 量 的 资源 信息 组 
存 备份 。 所 以 ,可 以 仅 考 虑 使 用 DHT 来 维护 覆盖 网 超级 结 点 的 路 由 表 。 

基于 以 上 分 析 , 我 们 采用 结构 化 的 协议 来 维护 此 资源 Overlay Network 的 拓扑 结构 。 
但 是 ,与 传统 的 分 布 式 哈 希 表 DHT 协议 不 同 ,例如 Chord, CAN 等 ,本 节 仅 使 用 DHT 协议 
来 维护 网 格 结 点 的 路 由 表 ,而 不 对 结 点 的 信息 表 进 行 DHT 维护 。 即 , 当 有 超级 结 点 加 入 或 
退出 网 络 时 ,使 用 DHT 协议 调整 结 点 的 路 由 表 ; 当 网 格 结 点 进行 资源 信息 更 新 时 ,例如 , 当 
结 点 的 工作 负载 发 生 了 变化 时 , 仅 需要 采用 push 方式 修改 相应 的 客户 结 点 和 超级 结 点 的 权 
值 即 可 。 

2) 路 由 转发 选择 

在 确定 使 用 结构 化 协议 来 维护 网 格 资源 Overlay 网 络 拓扑 之 后 , 接 下 来 考虑 选择 何 种 
路 由 转发 机 制 来 进行 资源 调度 时 相关 信息 的 传播 。 

路 由 算法 是 P2P 系统 的 核心 ,算法 的 优 劣 直接 关系 到 P2P 系统 的 核心 性 能 如 可 扩展 
性 可靠 性 .可 用 性 等 。 在 设计 路 由 算法 时 ,需要 考虑 以 下 几 个 问题 : 

(1) 路 由 状态 效率 折 中 。 状 态 指 路 由 表 所 需要 维护 的 邻居 状态 数目 ,效率 指 路 由 路 径 
长 度 所 代表 的 路 由 效率 。 由 于 状态 效率 对 于 P2P 系统 的 性 能 具有 本 质 性 影响 ,因此 ,状态 
效率 折 中 的 研究 一 直 是 P2P 系统 路 由 的 热点 问题 。 一 个 重要 的 目标 就 是 研究 是 否 能 够 实 
现 “O(1) 的 邻居 数 和 O(logzn) 的 路 径 长 ”的 状态 效率 , 即 “ 常 量度 ”路 由 问题 99。 

(2) 容错 性 。 由 于 结 点 在 P2P 系统 内 自由 地 加 入 和 退出 ,因而 在 设计 路 由 算法 时 容错 
性 是 一 个 重要 的 考虑 因素 。 系 统 要 在 路 由 结 点 失效 或 者 退出 时 ,仍然 能 够 保证 路 由 可 行 性 
和 正确 性 。 可 以 使 用 Static Resilience 来 评估 路 由 算法 的 容错 性 能 。Static Resilience 指 当 
结 点 失败 并 没有 时 间 让 别 的 结 点 重建 别 的 邻居 作为 补偿 时 , 即 邻 居 结 点 知道 一 个 结 点 失败 
了 但 并 不 与 别 的 结 点 建立 任何 新 的 邻居 关系 时 ,路 由 的 可 行 性 及 效率 。 参 考 文献 [11] 中 认 
为 Static Resilience 与 路 由 Geometry 密切 相关 , 环 结构 对 于 Static Resilience 有 效 ,此 外 还 
将 路 由 表 的 邻居 分 为 规则 和 持续 两 类 ,其 中 持续 邻居 对 于 Static Resilience 更 有 效 。 

CD 路 由 热点 。 路 由 热点 指 当 存 有 资源 的 结 点 收 到 太 多 的 任务 请 求 时 ,此 结 点 的 出 人 
路 由 流量 太 大 ,引起 所 谓 的 “热点 ”问题 , 即 路 由 拥塞 , 结 点 会 由 于 负载 过 重 而 反应 不 过 来 。 
路 由 热点 的 解决 方案 一 方面 可 以 通过 有 效 的 复制 和 缓存 策略 后 ,以 分 流 对 于 热点 资源 的 
请 求 , 另 一 方面 是 采用 负载 均衡 技术 。 在 DHT 中 ,负载 均衡 可 采用 虚拟 服务 器 (Virtual 
Server) 的 方法 ,根据 结 点 的 能 力 分 配 负载 ,如 Chord。 参 考 文献 [14] 中 基于 Chord 进一步 
考虑 了 虚拟 服务 器 根据 动态 负载 的 情况 进行 迁移 的 技术 , 重 载 结 点 可 以 将 一 些 虚拟 服务 器 
迁移 到 轻 载 结 点 ,同时 考虑 了 系统 的 总 体 性 能 均衡 。 

(4) 物理 网 络 匹配 。 物 理 网 络 匹配 指 Overlay 网 络 应 尽 可 能 与 物理 网 络 相 匹配 以 减少 
结 点 通信 的 开销 和 路 由 延迟 ,即使 得 RDP 尽量 小 。 这 个 问题 的 研究 可 以 大 致 分 为 两 种 不 同 
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的 方法 : 一 种 是 利用 Internet 的 层次 信息 ,如 自治 系统 ASIP 前 级 进行 拓扑 适应 构造 ,这 是 
一 种 直接 与 物理 网 络 匹 配 的 方法 ; 另 一 种 是 间接 的 匹配 方法 , 即 采用 路 由 选择 技术 。 针 对 
第 一 种 直接 匹配 的 方法 ,eCAN55 借助 BGP 表 来 引导 路 由 ,使 得 结 点 通信 本 地 化 ,减少 通信 
开销 和 路 由 延迟 ; 参考 文献 [16] 中 利用 IP 前 绥 使 得 路 由 充分 利用 Internet 层次 信息 ,并 模 
拟 路 由 层 的 最 短路 径 算法 以 匹配 物理 网 络 。 这 些 方式 都 直接 基于 Overlay 网 络 的 拓扑 
结构 。 

采用 路 由 选择 技术 的 间接 匹配 方法 的 研究 主要 集中 在 DHT 协议 领域 ,目前 可 以 分 成 
三 种 不 同 的 技术 : 邻近 邻居 选择 (Proximity Neighbor Selection, PNS)、 邻 近 路 由 选择 
(Proximity Routing Selection, PRS) 和 邻近 标识 选择 (Proximity Identity Selection, PIR). 
PNS 在 构造 路 由 表 时 , 结 点 选择 与 该 结 点 邻近 (比如 时 延 短 、 物 理 位 置 靠近 ) 的 结 点 作为 邻 
居 。 这 种 优化 策略 选择 结 点 的 物理 邻近 结 点 进行 路 由 跳 转 ,从 而 使 得 路 由 间接 与 物理 网 络 
匹配 。 该 方法 有 好 的 延迟 伸展 、 负 和 载 平衡 和 本 地 路 由 收敛 特性 中 ,但 是 该 方法 的 限制 是 不 
支持 如 CAN 和 Chord 这 类 要 求 在 路 由 表 中 明确 指出 标识 空间 的 下 一 个 结 点 标识 的 DHT 
算法 的 。PRS 在 路 由 时 选择 与 该 结 点 邻近 的 邻居 作为 下 一 跳 。 与 PNS 相反 ,PRS 在 路 由 
过 程 中 进行 动态 选择 。 假 设 每 一 跳 都 有 上 个 结 点 可 供 选 择 , 则 每 一 跳 的 平均 延迟 可 以 从 原 
来 的 网 络 中 任意 两 个 结 点 延迟 的 平均 值 减少 到 网 络 中 任意 一 个 结 点 到 其 他 任意 个 结 点 延 
迟 最 小 值 的 平均 值 ,所 获得 的 性 能 提高 同 & 的 大 小 成 正比 , 增 大 的 值 意 味 着 每 个 结 点 路 由 
表 的 增 大 ,从 而 需要 更 多 的 资源 消耗 以 维持 链接 。 除 此 之 外 ,一 味 考虑 选择 延迟 最 低 的 结 点 
转发 查询 也 可 能 导致 路 由 逻辑 跳 的 数目 变 大 。 

PIR 的 工作 原理 是 : 如 果 标 识 与 物理 位 置 相 关 ,那么 在 以 标识 为 基础 的 Overlay 网 的 路 
由 就 能 够 尽 可 能 接近 以 IP 为 基础 的 物理 网 的 路 由 ,因此 在 新 结 点 加 入 时 ,产生 的 结 点 标识 
与 结 点 所 在 的 物理 位 置 相 关 。 常 用 的 PIR 方法 有 Landmark ER: 取 m 路 标 ,然后 每 个 
加 入 的 结 点 通过 ping 这 m 路 标 得 到 的 值 排列 成 m 位 , 即 为 结 点 标识 。 由 于 此 标识 反映 了 
与 m 路 标的 物理 位 置 关 系 ,因此 ,将 结 点 标识 与 物理 位 置 结合 了 起 来 。 参 考 文 献 [19] 实 现 
了 PIR 路 由 , 它 在 每 一 跳 获 得 了 IP 延迟 的 两 倍 或 者 更 少 的 性 能 。 然 而 ,该 方法 也 存在 一 些 
缺点 : 首先 , 它 破坏 了 标识 空间 的 均匀 分 布 ,在 Overlay 网 中 容易 造成 负载 不 均衡 问题 ; 其 
次 ,由 于 映射 算法 的 限制 ,该 方法 在 一 维 空 间 中 ,如 Chord、Tapestry 和 Pastry 等 ,工作 效果 
较 差 ; 再 次 ,标识 空间 中 相 邻 的 结 点 由 于 物理 也 相 邻 ,容易 造成 并 发 失败 ,而 由 于 在 Chord 
和 Pastry 这 样 的 系统 中 结 点 在 邻居 中 复制 数据 ,还 存在 安全 性 和 和 鲁 棒 性 问题 。 

(5) 异 构 性 。 当 前 的 P2P 路 由 算法 在 处 理 Overlay 层 的 消息 路 由 时 并 不 考虑 结 点 的 处 
理 能 力 差 异 , 例 如 网 络 带 宽 、 存 储 空 间 和 可 用 CPU 数目 等 。 然 而 ,研究 表明 由 于 部 分 结 点 
的 性 能 瓶颈 可 能 导致 路 由 算法 失效 C] 。 因 此 ,在 设计 路 由 算法 时 需要 考虑 结 点 的 异 构 性 问 
题 。 利 用 异 构 性 将 更 多 的 任务 分 配给 有 高 网 络 带宽 、 大 存储 容量 和 好 的 CPU 处 理 能 力 的 
结 点 。 参 考 文献 [21] 建 立 了 一 个 超级 结 点 虚拟 层 , 并 将 本 地 结 点 组 织 成 一 个 以 超级 结 点 为 
中 心 的 组 ,采用 两 阶段 路 由 ,第 一 阶段 是 将 请 求 路 由 给 超级 结 点 层 ,第 二 阶段 时 再 将 请 求 路 
由 给 超级 结 点 所 在 组 的 目标 结 点 。 这 种 方式 可 以 避 开 低能 力 结 点 的 瓶颈 ,提高 通信 效率 , 降 
低 通信 延迟 。 

在 设计 nTreeMatch 算法 的 路 由 转发 机 制 时 考虑 了 上 述 因 素 ,DHT 协议 在 维护 结 点 的 
路 由 表 时 有 很 明显 的 优势 .例如 ,在 Chord 中 ,每 个 结 点 需要 保存 约 log, N 个 其 他 结 点 的 路 
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由 信息 CN 为 网 络 中 的 结 点 数 ) ,在 CAN 中 ,每 个 结 点 只 需 维护 2d 个 邻居 结 点 的 信息 , 当 有 
结 点 加 入 或 退出 网 络 时 ,两 种 协议 需要 调整 的 路 由 表 工 作 量 都 很 少 。 因 此 ,在 选择 路 由 协 
议 . 设 计 结 点 路 由 表 时 ,我们 选择 使 用 简单 .正确 .性 能 好 、 易 维护 的 Chord 协议 作为 路 由 协 
议 的 设计 基础 。 但 是 ,Chord 协议 存在 一 些 问题 ,例如 ,其 Overlay 层 上 的 路 由 没有 考虑 物 
理 网 实现 (IP 层 路 由 ) ,因此 ,有 可 能 存在 Overlay 层 上 的 路 由 逻辑 跳 数 不 多 ,但 是 实际 的 物 
理 跳 数 (IP 跳 数 ) 却 很 多 ,从 而 导致 资源 调度 时 间 过 长 ,使 得 调度 算法 的 性 能 不 能 达到 最 优 。 
所 以 ,根据 网 格 资源 Overlay 结 点 的 特性 ,对 Chord 协议 进行 了 改进 ,使 得 算法 的 相对 平均 
延迟 开销 RDP 尽量 小 。 

在 进行 资源 调度 , 即 两 种 树 形 数据 结构 进行 匹配 时 , 当 某 个 子 任 务 结 点 无 法 在 资源 
Overlay 网 络 拓扑 的 最 小 生成 树 的 某 结 点 上 获得 满足 计算 要 求 的 资源 信息 时 ,此 子 任务 的 
请 求 将 通过 一 个 路 由 函数 转 到 另 一 个 资源 结 点 上 开始 新 的 匹配 。 在 转发 此 任务 请 求 时 ,路 
由 函数 通过 查找 当前 结 点 的 路 由 表 ,找到 其 最 近 的 邻居 结 点 ,然后 将 任务 请 求 转发 过 去 。 

为 了 弥补 Chord, CAN PMMA AE. Pastry, Tapestry 等 另外 的 几 种 结构 化 协议 在 算法 
设计 时 考虑 了 查找 的 IP 路 由 和 逻辑 跳 之 间 的 关系 ,通过 一 定 方式 使 得 RDP 尽 可 能 少 。 算 
法 中 ,每 个 结 点 的 路 由 表 中 的 结 点 到 该 结 点 的 物理 距离 都 尽 可 能 短 , 从 而 保证 查找 过 程 中 实 
际 物理 跳 数 也 尽 可 能 的 少 。 算 法 的 最 大 优势 在 于 : 物理 距离 与 逻辑 距离 成 正比 。 但 是 ， 
Pastry 和 Tapestry 的 路 由 表 无 法 达到 全 局 一 致 性 ,算法 实现 相对 复杂 。Tapestry 中 ,更 新 
赣 值 的 选择 是 个 挑战 ,选择 值 过 大 可 能 导致 整个 系统 的 路 由 性 能 逐步 劣化 ,选择 值 过 小 ,更 
新 所 需 的 开销 将 难以 承受 。Pastry 中 ,三 角 不 等 式 原理 本 身 不 太 符合 网 络 的 实际 情况 ,以 
此 为 基础 的 路 由 优化 值得 怀疑 。 当 结 点 加 入 或 退出 系统 时 ,两 者 的 系统 开销 都 较 大 。 

基于 网 格 Overlay 拓扑 结构 的 设计 ,我 们 认为 ,如 果 在 构建 Overlay 拓扑 的 最 小 生成 树 
时 正确 考虑 IP 层 路 由 跳 数 ,算法 的 路 由 耗费 ,RDP 应 该 能 够 降 至 可 以 提高 网 格 资源 调度 性 
能 的 范围 。 因 此 ,在 构造 Overlay 拓扑 时 利用 了 网 格 结 点 的 IP 前 级 ,这 是 一 种 Overlay 网 络 
直接 与 物理 网 络 匹 配 的 方法 ,基于 如 果 每 步 路 由 都 是 最 短 时 延 ,那么 总 体 时 延 也 应 该 得 到 优 
化 的 原理 。 我 们 利用 网 络 临近 原则 来 构建 这 棵 最 小 生成 树 , 使 用 参考 文献 [22] 中 的 机 制 来 
发 现 拓扑 临近 的 邻居 结 点 。 这 样 ,存储 在 结 点 路 由 表 中 的 邻居 结 点 是 物理 路 由 跳 最 小 的 结 
点 ,算法 的 RDP 会 非常 小 ,Overlay 层 上 的 路 由 耗费 可 以 最 大 限度 地 接近 物理 网 络 上 的 真 
实 路 由 。 具 体 实现 方法 如 下 。 

在 构造 Overlay 拓扑 时 ,如 果 一 个 新 的 结 点 加 入 到 此 网 格 , 此 结 点 需要 选择 一 个 和 它 是 
网 络 临近 的 结 点 作为 其 邻居 结 点 。 提 取 BGP 路 由 表 中 的 地 址 前 缀 信息 ,如 果 两 个 结 点 的 
IP 地 址 共享 一 个 共同 的 地 址 前 级 ,那么 我 们 认为 这 两 个 结 点 是 网 络 临 近 的 。 一 个 结 点 使 用 
这 种 方式 来 寻找 其 网 络 临近 的 邻居 结 点 。 同 时 ,我们 认为 ,如 果 一 味 考虑 选择 延迟 最 低 的 结 
点 来 转发 任务 请 求 查询 可 能 导致 路 由 逻辑 跳 的 数目 变 大 。 因 此 ,如 果 一 个 结 点 不 能 够 从 路 
由 表 中 找到 IP 地 址 前 绥 能 和 其 相 匹配 的 结 点 ,那么 此 结 点 将 从 路 由 表 中 随机 选择 一 个 结 点 
作为 其 邻居 结 点 。 

网 格 资源 调度 算法 的 路 由 表 结 构 以 及 超级 结 点 的 加 入 和 退出 时 的 处 理 方法 与 Chord 
相同 。 表 7-1 所 示 给 出 了 nTreeMatch 的 路 由 表 结 构 。 表 中 具体 的 参数 含义 可 参考 Chord 
算法 描述 3 。 
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表 7-1 nTreeMatch 路 由 表 


F E 结构 及 意义 
finger[ & ]. Start (i 2*7! ) mod 27 , 1 km 
. interval [finger[k]. start, finger[ &4- 1]. start] 
. node 第 一 个 ID KF n. finger[ & ]. start 的 结 点 
. Successor ID 空间 上 的 后 继 结 点 
. predecessor ID 空间 上 的 前 驱 结 点 
. redirect 重 定向 结 点 1<k<m 
2. 算法 定义 


基于 广度 优先 查找 (Breadth First Search,BFS) 算 法 ,下 面 给 出 通过 两 个 树 形 数 据 结 构 
之 间 的 匹配 进行 网 格 资源 调度 的 算法 nTreeMatch。 为 了 方便 算法 描述 ,在 阐述 
nTreeMatch 算法 的 工作 原理 之 前 ,首先 给 出 以 下 几 个 定义 。 

定义 7-1 资源 树 。Overlay 网 络 拓扑 的 最 小 生成 树 称 为 资源 树 , 用 及 表示 。 资 源 树 尺 
反映 了 系统 的 实时 工作 状态 ,例如 网 络 连 接 和 实时 工作 负载 状态 。|R| 二 m 表示 树 上 的 结 
AEA m.m 为 自然 数 。 

定义 7-2 任务 树 。 网 格 中 的 并 行 任务 树 称 为 任务 树 , 用 丁 表示。 资源 树 丁 反映 了 将 
任务 并 行 化 为 多 个 子 任 务 的 情况 , 根 结 点 的 权 值 表 示 进 行 并 行 化 、 结 果 收 集 以 及 处 理 各 个 子 
任务 需要 的 计算 资源 数量 。|T| 二 n 表示 树 上 的 结 点 个 数 为 n(n 为 自然 数 )。 

EX 7-3 树 的 初始 化 。 进 行 两 个 树 形 数据 结构 的 匹配 之 前 ,首先 进行 树 形 数 据 结 构 
的 初始 化 操作 ,具体 内 容 是 将 每 一 棵 树 上 高 度 相 同 的 叶子 结 点 根据 权 值 大 小 按照 升序 排序 。 
进行 初始 化 时 使 用 BFS 算法 遍历 每 棵 树 上 的 所 有 叶子 结 点 ,然后 将 处 在 同一 层 中 的 叶子 结 
点 进行 升序 排序 即 可 。 

定义 7-4 树 形 数据 结构 的 方法 NodelistBFS(s)。 假 设 0 是 一 棵 已 经 初始 化 的 树 的 结 
点 集合 ,例如 , 树 民 的 结 点 集合 为 R 二 {Ri ,Ri,R3,…,R。), 树 丁 的 结 点 集合 为 T= 二 {Ti To. 
T; ,…,T,)。NodelistBFS(s) 方 法 可 以 获取 结 点 s 的 儿子 结 点 所 在 层 的 所 有 结 点 排序 列表 。 
此 方法 的 实现 过 程 中 使 用 了 BFS 算法 。 

定义 7-5 结果 集合 。 两 棵 树 的 匹配 结果 为 一 组 或 多 组 可 以 匹配 的 结 点 对 ,使 用 结果 
集合 MNP 来 存储 这 些 可 以 匹配 的 结 点 对 的 列表 ,例如 ,MNP 一 {{ 太一 Ri T >R; T, 
Ry} e UD Rs TR, mA Ty Rn | RAED ABR Ty 和 资源 树 结 点 Ri 、 任 务 树 结 
点 Ta 和 资源 树 结 点 Rs 以 及 任务 树 结 点 T, op REIS Rp E 28 TE B6 83 25 S TE e AE 
务 树 结 点 Ti 和 资源 树 结 点 Ri 、 任 务 树 结 点 Te 和 资源 树 结 点 R 以 及 任务 树 结 点 T, 和 资 
源 树 结 点 尺 。 是 另外 一 组 可 以 匹配 的 结 点 集合 。 

nTreeMatch 算法 的 伪 代 码 如 下 : 

nTreeMatch (Tree &R, Tree &T) { 

X = FindSubtreeRoot (Tree &R, Tree &T); 


R' = NodelistBFS(X) ; 
T' = NodelistBFS(root of T); 


Do { 
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If (Compare (R'(j).weight, T'(i).weight) { //True for >=, False for <; 
T'(i) and R'(j) -> MNP; 
T'(i) = i. RightBrother; 

} 

Else { 
R'(j) = FindSuccessor (R'(j)); // find the successor of j in Chord route table; 
Compare (R'(j). weight, T'(i).weight); 

} 

} Until (T'(i).RightBrotherNULL) ; 


For each node in R' and T'( 
If Min(X(unmatched node in T'). weight) then{ 
all the matched nodes pairs -> MNP; 
For each element in MNP ( 
If Max (X(unmatched node in R'). weight) then 
this element be the only one in MNP; 
n) 
For each node in T'( 
if (all the nodes in T'). matched = true then 
return MNP; 
else( 
R''=R'. delete (unmatched nodes and their children); 
T''=T'. delete (matched nodes) ; 
nTreeMatch (Tree &R'', Tree &T''); 
n) 


FindSubtreeRoot (Tree &R, Tree &T)( 
For each node in BFS(Tree &R) ( 
If weight (x) >= weight (root (T)) then 
Return x and Break; 

n 

在 网 格 环境 中 ,进行 任务 并 行 化 的 结 点 往往 也 会 将 返回 的 各 个 子 任务 的 处 理 结果 收集 
起 来 ,也 就 是 说 ,任务 树 的 根 结 点 代表 的 任务 将 由 资源 树 上 的 一 个 结 点 处 理 。 同 时 ,任务 的 
并 行 化 是 网 格 系统 处 理 用 户 任务 的 第 一 步 ,所 以 调度 过 程 首 先 从 为 任务 树 的 根 结 点 找到 可 
以 匹配 的 任务 树 的 结 点 开始 。 这 个 步骤 对 应 函数 FindSubtreeRoot (Tree &-R, Tree &T) 。 
nTreeMatch 调度 算法 使 用 该 函数 来 寻找 资源 树 上 可 以 进行 匹配 的 一 棵 资源 子 树 , 以 此 来 保 
证 任务 树 T 的 根 结 点 可 以 首先 从 资源 树 中 找到 匹配 的 处 理 结 点 。 

在 进行 资源 调度 , 即 两 种 树 形 数据 结构 进行 匹配 时 , 当 某 个 子 任务 结 点 无 法 在 资源 子 树 
上 的 某 结 点 获得 满足 计算 要 求 的 资源 信息 时 ,该 子 任务 请 求 将 通过 一 个 路 由 函数 
FindSuccessor 转 到 另 一 个 资源 结 点 上 开始 新 的 匹配 。 在 转发 此 任务 请 求 时 ,该 函数 通过 查 
找 当 前 结 点 的 路 由 表 , 找 到 其 最 近 的 邻居 结 点 ,然后 将 任务 请 求 转发 过 去 。 该 路 由 表 生 成 时 
利用 了 上 面 提 到 的 网 络 临近 原则 ,通过 提取 BGP 中 结 点 IP 前 级 信息 得 到 物理 层 上 路 由 跳 
数 最 小 的 邻居 结 点 列表 。 

函数 Min CXCunmatched node in TO. weight) 可 以 判断 结果 集合 MNP 中 一 个 匹配 的 结 
点 对 列表 能 否 使 得 在 资源 树 T 中 那些 没有 找到 合适 的 匹配 结 点 的 结 点 的 权 值 最 小 。 这 样 
做 的 目的 是 为 了 确保 尽 可 能 多 的 子 任务 可 以 分 配 到 计算 资源 。 在 结果 集合 MNP 中 可 能 存 
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在 一 个 或 多 个 满足 此 条 件 的 元 素 , 但 是 为 了 保证 资源 调度 的 有 效 性 ,使 得 任务 使 用 尽量 少 的 
资源 、 网 格 中 的 资源 不 被 耗 尽 , 只 有 使 得 资源 树 R 中 剩余 的 结 点 的 权 值 最 大 的 元 素 , 即 
MNP 中 的 已 匹配 结 点 对 列表 可 以 被 最 终 确定 为 资源 调度 的 最 优 结果 。 函 数 Max CX 
(unmatched node in RO. weight) 可 以 达到 上 述 目的 。 

R. delete (z) 的 代码 设计 基于 定理 7-1. 

定理 7-1 在 第 一 轮 匹 配 过 程 中 ,如 果 任 务 树 T 上 的 一 个 结 点 nn 没有 在 资源 树 R ER 
到 匹配 的 结 点 ,那么 在 执行 第 二 轮 匹 配 时 ,此 结 点 nn 的 匹配 范围 限制 在 由 已 经 资源 树 R' 上 
那些 已 经 找到 相关 匹配 的 结 点 的 孩子 结 点 组 成 的 集合 。 

证 明 : 此 定理 是 显而易见 的 。 如 果 任 务 树 T 上 的 一 个 结 点 在 第 一 轮 匹配 过 程 中 没有 
找到 可 以 匹配 的 资源 树 R' 上 的 结 点 ,说 明 资 源 树 R' 中 这 一 层 上 所 有 剩 下 未 匹配 的 结 点 都 不 
能 满足 结 点 n 的 要 求 。 假 设 结 点 可 以 在 R' 未 匹配 的 结 点 的 孩子 结 点 中 找到 匹配 结 点 m， 
但 是 必须 为 结 点 m 和 R 上 其 他 结 点 的 通信 支付 昂贵 的 开销 耗费 。 因 为 此 通信 过 程 必须 通 
过 RR 的 根 结 点 进行 ,那么 此 路 径 将 成 为 所 有 匹配 中 路 径 最 长 的 一 条 ,相应 地 ,其 路 由 耗费 也 
将 是 最 高 的 。 因 此 ,在 二 次 匹配 过 程 中 ,仅仅 考虑 已 经 找到 相关 匹配 的 结 点 的 孩子 结 点 ,而 
不 再 考虑 那些 未 匹配 的 结 点 的 孩子 结 点 。 证 明 完 毕 。 

需要 说 明 的 是 ,在 将 任务 划分 成 多 个 并 行 子 任务 后 ,如 果 在 一 定时 间 内 没有 返回 计算 结 
果 , 调 度 策略 认为 此 任务 计算 失败 ,然后 将 任务 重新 分 配 , 如 果 有 效 时 间 内 返回 了 多 个 计算 
结果 , 则 取 最 早 返回 时 间 的 结果 为 有 效 结 果 , 将 其 他 结果 丢弃 。 这 种 做 法 可 能 会 浪费 一 定 的 
计算 资源 ,但 是 却 简单 .巧妙 地 避免 了 使 用 结 点 间 的 进程 迁移 来 提高 调度 策略 容错 性 的 复 
7.1.4 算法 时 间 复 杂 度 分 析 

nTreeMatch 调度 算法 的 核心 是 匹配 过 程 , 由 两 个 主要 的 步骤 组 成 : 四 树 的 遍历 和 排 
Ws @ 路 由 跳 转 。 下 面 将 分 别 对 匹配 过 程 的 两 个 主要 步骤 的 时 间 复 杂 度 进行 分 析 , 最 终 获 


得 算法 的 整个 匹配 过 程 的 时 间 复 杂 度 。 其 中 ?为 结 点 的 数目 ,一 max(NodeNumber(T)， 
NodeNumber(R)) 。 


1. 树 的 遍历 


在 找到 和 任务 树 的 根 结 点 匹配 的 资源 树 结 点 之 后 ,算法 开始 。 按 照 广度 优先 对 树 进行 
遍历 和 排序 ,遍历 每 步 的 计算 步骤 为 
忒 1 十 2X (i 一 1)， 子 结 点 数目 大 于 1 


=1, 其 他 
极端 情况 下 只 需 对 样 树 上 的 所 有 结 点 进行 一 次 扫描 , 即 所 用 时 间 为 OCz)。 因 此 ,遍历 


的 总 的 计算 步 又: n < G) < (2i 一 1), 即 


n<G(n) xm 


&w| 


2. 路 由 跳 转 


考虑 算法 的 路 由 过 程 , 算 法 时 间 复 杂 度 和 Chord 算法 一 样 ,O(logzn)。 所 以 ,算法 的 时 
间 复 杂 度 为 O(logsnXn?)。 
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经 过 以 上 分 析 , 可 以 得 知 nTreeMatch 调度 算法 的 匹配 过 程 时 间 复 杂 度 为 多 项 式 时 间 。 
由 于 各 个 步骤 遍历 的 结 点 数 不 同 ,所 以 没有 给 出 总 时 间 复 杂 度 的 计算 结果 。 


7.1.5 算法 实验 及 结果 分 析 


为 了 验证 nTreeMatch 调度 算法 的 性 能 ,我 们 基于 仿真 实验 对 调度 算法 的 整体 性 能 \ 平 
均 服务 质量 QoS、 路 由 效率 、 空 间 开 销 、 结 点 负载 状态 进行 测试 ,并 分 别 和 Min-min、Max- 
min 算法 、Chord 算法 做 了 相关 比较 。 

1. 实验 环境 

基于 GT-ITM"" Internet 网 络 , 仿 真 程序 使 用 GT-ITM 网 络 拓扑 产生 器 建立 Transit 
Domain 和 Stub Domian, 以 此 来 模拟 基于 超级 结 点 对 等 网 络 拓扑 的 网 格 环 境 。 

在 网 格 模拟 环境 中 ,GT-ITM 网 络 拓扑 分 为 两 层 : Transit Domain 和 Stub Domain, H 
中 ,Transit Domain 对 应 网 格 中 的 虚拟 组 织 ,Stub Domian 对 应 网 格 中 的 由 超级 结 点 维护 的 
客户 结 点 集合 。GT-ITM 网 络 的 网 格 规模 为 28800 ,平均 虚拟 组 织 规模 为 400。 逻 辑 结构 中 
的 所 有 结 点 ,包括 超级 结 点 和 客户 结 点 ,都 通过 SHA-1 安全 哈 希 函数 得 到 ,路 由 表 的 行 数 为 
8, 列 数 为 8。 结 点 在 网 络 中 随机 分 布 。 实 验 给 每 个 结 点 赋予 一 定 的 生命 周期 ,以 此 来 模拟 
结 点 的 加 入 和 退出 。 网 络 连 接 分 为 局 域 网 (LAN) 和 广域网 (WAN), 实 验 中 WAN 的 带宽 
35] 4r fü E IX ECO. 5. 1.0]( 单 位 为 Mb/s) 上 ,LAN 的 带宽 均匀 分 布 在 区 间 [2.5,5]( 单 位 
为 Mb/s) 上 。 但 是 ,在 实验 中 我 们 假设 通信 和 链 路 的 带宽 足够 大 ,不 考虑 通信 延迟 。 同 时 ,我 
们 还 假设 一 条 通信 和 链 路 一 次 只 能 发 送 或 接收 一 个 消息 。 因 为 nTreeMatch 算法 在 调度 计算 
任务 时 ,不 考虑 链 路 竞争 ,并 忽略 由 此 产生 的 相应 的 路 由 信息 。 在 真实 的 网 格 环境 中 ,一 条 
物理 通路 可 能 同时 被 几 条 逻辑 通路 所 复 用 。 虽 然 算 法 不 考虑 链 路 的 竞争 以 及 路 由 ,可 能 使 
得 算法 生成 的 调度 结果 与 实际 运行 之 间 存 在 一 定 的 误差 ,但 是 因为 本 节 考 虑 的 是 并 行 任 务 
的 广 域 调度 ,并且 调度 任务 的 各 子 任 务 中 间 的 通信 量 非常 小 ,所 以 ,和 整个 并 行 任务 的 执行 
时 间 相 比 ,此 误差 可 以 忽略 不 计 。 同 时 ,仿真 程序 会 周期 性 更 新 客户 结 点 的 可 用 资源 信息 、 
索引 信息 ,同时 维护 超级 结 点 的 路 由 表 和 邻居 信息 。 使 用 的 更 新 数据 由 NWS 测定 实际 应 
用 系统 得 到 ,包括 结 点 负载 .CPU 空闲 率 等 。 设 定 结 点 的 计算 速率 按 均 匀 分 布 随机 分 布 在 
200,400,600 800 和 1000( 单 位 为 Mflop/s) 之 间 。 这 些 跟踪 数据 使 得 模拟 环境 能 够 仿真 实 
际 网 格 环境 的 资源 异 构 性 特征 。 

K 7-2 列 出 了 仿真 实验 中 使 用 的 GT-ITM 参数 。 其 中 ,T 为 网 络 中 Transit Domain 的 
个 数 , 即 虚拟 组 织 的 个 数 ; Nz 为 每 个 Transit Domain 的 结 点 数 , 即 超级 结 点 个 数 ; S 为 每 个 
Transit Domain 结 点 平均 连接 的 Stub Domain 的 个 数 , 即 每 个 虚拟 组 织 中 的 超级 结 点 数 ; 
Ns 为 每 个 Stub Domain 内 的 结 点 数 , 即 超级 结 点 维护 的 客户 结 点 个 数 ; Ds Drs Dr 、Drr 分 
别 为 Stub Domain 内 的 物理 链 路 长 .Stub Domain 与 Transit Domain 间 的 物理 链 路 长 、 
Transit Domain 内 的 物理 链 路 长 Transit Domain 间 的 物理 链 路 长 。 


表 7-2 仿真 实验 中 GT-ITM 参数 的 设 定 
参数 T Nr S Ns Ds Drs Dr Drr 
参数 值 3 8 3 8 1 3 b 7 
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实验 中 ,任务 的 表现 形式 为 对 客户 结 点 可 利用 资源 信息 的 请 求 。 仿 真 程序 假定 任务 总 
数 为 1000 ,任务 请 求 的 发 起 过 程 服从 泊 松 分 布 ,平均 到 达 间 隔 时 间 为 8s。 任 务 的 输入 数 
据 大 小 相同 ,输入 文件 使 用 实际 应 用 系统 的 数据 ,其 中 , 设 定 任务 对 资源 的 需求 量 按 均匀 
分 布 随机 产生 ,分 布 区 间 为 L0.1,.100]。 同 时 我 们 设 定 , 任 务 一 旦 被 调度 后 ,不 再 执行 再 
调度 。 

2. 实验 结果 

1) 整体 性 能 

采用 任务 的 总 执行 时 间 makespan 作为 nTreeMatch 算法 整体 性 能 的 评价 指标 。 为 了 
分 析 算 法 的 性 能 ,比较 了 nTreeMatch 算法 和 Min-min 算法 、Max-min 算法 的 性 能 。 在 实验 
中 ,对 于 同一 个 任务 ,分 别 记录 使 用 不 同 的 调度 算法 ,任务 需要 的 总 的 执行 时 间 ; 然后 改变 
任务 输入 数据 的 大 小 ,进行 了 几 组 测试 。 图 7-2 记录 了 任务 输入 大 小 分 别 为 1MB、2MB、 
3MB 时 ,在 三 种 不 同 的 调度 算法 下 所 需 的 执行 时 间 , 每 种 情况 的 实验 数据 是 同样 条 件 下 重 
复 200 次 的 平均 结果 。 
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7-2 nTreeMatch, Min-min, Max-min 调度 任务 的 总 执行 时 间 makespan 比较 


从 图 7-3 可 以 看 出 ,在 同样 的 任务 输入 数据 大 小 下 ,nTreeMatch 调度 算法 使 得 任务 的 
makespan 最 小 。 并 且 , 输 入 数据 越 大 , 即 任务 的 计算 量 越 大 的 情况 下 ,nTreeMatch 调度 算 
法 越 能 缩短 任务 的 makespan, 呈 现 的 性 能 越 好 。 例 如 ,1MB 的 任务 下 ,使 用 nTreeMatch 算 
法 进行 调度 ,任务 的 makespan 为 8137s. 而 Min-min、Max-min 分 别 为 8238s 和 8256s; 而 当 
任务 输入 增长 为 4MB 时 ,nTreeMatch 调度 策略 使 得 任务 的 makespan Jy 8750s. ifii Min- 
min、Max-min 分 别 为 8953s 和 9768s。 由 此 分 析 可 以 得 出 结论 : 通过 各 个 网 格 计算 结 点 间 
和 相互 协作 ,可 以 降低 任务 总 的 执行 时 间 , 说 明了 nTreeMatch 调度 算法 的 有 效 性 。 任 务 计 
算 量 越 大 ,计算 时 间 越 短 ,说 明了 由 于 网 格 结 点 间 通 过 Chord 网 络 ,建立 了 P2P 的 协作 关 
系 , 加 速 了 计算 的 进程 。 

2) 平均 服务 质量 QoS 

平均 响应 率 是 评价 一 个 调度 算法 的 服务 质量 QoS 的 参数 之 一 ,其 他 可 以 用 来 衡量 服务 
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质量 的 要 素 还 包括 响应 时 间 吞吐 率 . 可 用 性 、 安 全 性 等 。 实 验 中 采用 平均 响应 率 (Average 
Response Ration) 作 为 评价 nTreeMatch 算法 整体 服务 质量 (QoS) 的 评价 指标 。 对 单个 任 
务 的 QoS, 响 应 率 (Response Ration，RR) 的 定义 为 

RR = 任务 执行 时 间 / (任务 完成 时 间 一 任务 提交 时 间 ) 

响应 率 反映 了 一 个 特定 任务 等 待 处 理 的 时 间 期 望 ,反映 了 算法 对 单个 任务 的 服务 质量 。 
而 平均 响应 率 是 一 组 任务 的 所 有 响应 率 的 平均 值 ,可 以 反映 算法 的 整体 服务 质量 。 

在 分 析 算 法 的 QoS 时 ,仍然 将 nTreeMatch 算法 和 Min-min 算法 、Max-min 算法 的 
QoS 进行 比较 。 在 本 实验 中 ,对 于 同一 个 任务 ,分 别 记录 在 使 用 不 同 的 调度 算法 情况 下 , 任 
务 的 执行 时 间 、 提 交 时 间 和 完成 时 间 , 计 算 任 务 的 响应 率 ; 然后 改变 任务 输入 数据 的 大 小 ， 
进行 了 几 组 测试 。 图 7-3 所 示 记 录 了 任务 输入 大 小 分 别 为 1MB、2MB、3MB 时 ,在 三 种 不 同 
的 调度 算法 下 ,重复 执行 任务 200 次 后 ,获得 的 实验 结果 。 


—s— nTreeMatch 
—e— Min-min 


0.28 4 Max-min 
0.26 4 


平均 响应 率 
ce 
BB 


0.14 4 


任务 大 小 MB 
图 7-3 nTreeMatch、Min-min、Max-min 算法 的 平均 响应 率 (QoS) 比 较 


从 图 7-3 可 以 看 出 ,平均 响应 率 随 着 任务 输入 数据 的 增加 而 变化 。 在 同样 的 任务 输入 
数据 大 小 下 ,nTreeMatch 算法 的 平均 响应 率 最 大 ,明显 高 于 Min-min 算法 和 Max-min 算 
法 。 例 如 ,任务 输入 数据 大 小 为 1MB 时 ,nTreeMatch 算法 的 平均 响应 率 为 0.282, 而 Min- 
min 算法 和 Max-min 算法 分 别 为 0.226 和 0. 223。 随 着 输入 数据 的 增 大 , 即 任务 计算 量 越 
来 越 大 的 情况 下 ,三 种 调度 算法 的 平均 响应 率 均 有 所 下 降 , 其 中 Max-min 算法 的 平均 响应 
率 下 降 最 快 ,虽然 nTreeMatch 算法 和 Min-min 算法 的 平均 响应 率 下 降 趋 势 相 似 , 但 是 
nTreeMatch 算法 仍 能 保持 较 高 的 平均 响应 率 。 例 如 , 当 任 务 输入 增长 为 4MB 时 ,Max-min 
算法 的 平均 响应 率 很 快 下 降 到 0. 113. Min-min 算法 和 nTreeMatch 算法 分 别 为 0. 119 和 
0.247。 对 于 这 种 实验 结果 ,可 以 给 出 以 下 解释 : Min-min 算法 和 Max-min 算法 在 进行 调度 
时 都 仅 考虑 任务 在 某 个 结 点 的 最 小 完成 时 间 (Minimum Complete Time. MCT). ifii 
nTreeMatch 算法 主要 考虑 调度 某 个 任务 之 后 ,还 为 其 他 任务 预 留 更 多 的 计算 资源 ,在 其 他 
任务 到 达 时 可 以 得 到 及 时 调度 ,每 个 任务 等 待 执 行 时 间 的 开销 小 ,有 助 于 降低 任务 总 执行 时 
间 , 可 以 保证 在 任务 高 到 达 率 时 ,算法 仍 能 获得 较 高 的 响应 率 。 由 此 分 析 可 以 得 出 结论 : 
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nTreeMatch 算法 的 平均 响应 率 优 于 其 他 两 种 算法 。 

3) 路 由 效率 

在 实验 中 ,记录 nTreeMatch 算法 在 转发 任务 请 求 时 所 需 的 路 由 跳 数 ,然后 和 Chord 算 
法 在 转发 结 点 查询 时 的 路 由 跳 数 进行 比较 ,如 果 nTreeMatch 算法 的 路 由 跳 数 小 于 Chord 
算法 , 则 认为 nTreeMatch 算法 的 路 由 效率 高 于 Chord 算法 。 通 过 这 种 方法 来 测试 
nTreeMatch 算法 采用 网 络 临近 原则 选择 临近 邻居 结 点 来 降低 RDP 的 设计 是 否 有 效 。 测 得 
的 实验 结果 如 图 7-4 所 示 。 

图 7-4 所 示 为 路 由 跳 数 的 概率 密度 函数 (Probability Density Function, PDF), Chord 
算法 PDF 最 大 时 的 路 由 跳 数 为 7, 对 应 的 PDF 的 值 为 0.21; nTreeMatch 算法 PDF 最 大 时 
的 路 由 跳 数 为 6, 对 应 PDF 值 为 0. 19。 从 以 上 实验 数据 注意 到 ,nTreeMatch 算法 的 路 由 跳 
数 虽然 非常 接近 Chord 算法 ,但 是 仍然 略 小 于 Chord 的 路 由 跳 数 。 说 明 nTreeMatch 算法 
采用 的 网 络 临近 原则 确实 可 以 降低 RDP, 虽 然 这 种 改变 是 轻 量 级 的 。 分 析 其 原因 ,主要 是 
由 于 nTreeMatch 算法 转发 任务 请 求 时 ,首先 会 路 由 到 所 在 域 的 超级 结 点 ,从 而 导致 了 路 由 
跳 数 的 增加 ,一 定 程 度 上 影响 了 算法 的 路 由 效率 。 

4) 空间 开销 

图 7-5 所 示 为 在 平均 虚拟 组 织 为 400 的 网 格 拓扑 上 ,客户 结 点 数 对 空间 开销 的 影响 。 
分 析 实 验 结果 可 得 ,nTreeMatch 算法 的 空间 开销 略 高 于 Chord 算法 ,同时 nTreeMatch 算 
法 的 空间 开销 随 客户 结 点 数量 的 增加 而 增加 。 这 是 因为 在 Chord 网 络 中 ,每 个 结 点 仅 维护 
一 个 路 由 表 ,而 网 格 中 的 超级 结 点 还 要 维护 其 所 辖 域内 的 所 有 客户 结 点 的 信息 。 实 验 测 得 ， 
当 虚 拟 组 织 大 小 为 400 时 客户 结 点 数 为 80000 时 ,Chord 算法 和 nTreeMatch 算法 的 空间 
复杂 度 分 别 为 0.39KB,0. 41KB, nTreeMatch 算法 的 空间 开销 是 完全 可 以 接受 的 。 
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图 7-4 nTreeMatch 和 Chord 的 单 次 资源 请 求 路 由 图 7-5 网 格 环境 中 的 客户 结 点 数 对 空间 
跳 数 的 概率 密度 函数 开销 的 影响 


5) 结 点 负载 状态 

是 否 能 够 根据 网 格 资源 结 点 的 资源 属性 的 动态 变化 ,进行 动态 的 网 格 任务 调度 是 评价 
网 格 资源 调度 算法 的 一 个 重要 测度 ,同时 , 结 点 负载 状态 及 负载 平衡 也 是 评价 对 等 网 络 资源 
管理 方式 的 一 个 重要 测度 。 为 了 评价 nTreeMatch 算法 的 动态 调度 性 能 ,本 部 分 的 实验 采 
用 记录 每 个 结 点 路 由 的 消息 数 的 方法 来 评价 结 点 的 负载 状态 。 图 7-6 所 示 是 nTreeMatch 
算法 的 结 点 负载 的 概率 密度 函数 ,在 图 7-7 中 ,将 n TreeMatch 算法 和 Chord 算法 的 结 点 负 
载 的 概率 密度 函数 进行 了 比较 。 
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为 了 能 清楚 地 显示 nTreeMatch 算法 的 结 点 负载 分 布 , 图 7-6 所 示 中 将 纵 坐 标 轴 进 行 了 


分 割 , 从 图 中 可 以 看 出 有 少量 结 点 的 负载 非常 高 ,概率 约 为 3. 5X10“ 一 7X10“。 这 些 高 
负载 的 结 点 是 网 格 中 的 超级 结 点 。 图 7-7 所 示 的 实验 结果 表明 nTreeMatch 算法 的 结 点 负 
载 比 Chord 算法 的 结 点 负载 稍 低 。 
il 
9 0.15 —sa— Chord 
4 6 —e— nTreeMatch 
E 3 
x a 0.10 
5 a 
= 0.006 os 
0.003 bil oo nnb DR 
0.000. Lid 0.00 ELM 
0 20 40 1000 2000 0 3 10 Is 30 25 30. 
负载 负载 
图 7-6 nTreeMatch 算法 的 结 点 负载 的 概率 图 7-7 nTreeMatch 算法 和 Chord 算法 的 结 点 
密度 函数 负载 概率 密度 函数 比较 


以 上 针对 为 解决 任务 并 行 度 高 的 计算 密集 型 科学 应 用 而 设计 的 专用 计算 网 格 提出 了 基 
于 树 匹配 的 网 格 资源 调度 算法 nTreeMatch。 算 法 充分 利用 了 网 格 资源 信息 有 向 图 表示 方 
法 和 网 格 任务 DAG 表示 方法 之 间 的 相似 性 ,将 网 格 Overlay Network 拓扑 的 最 小 生成 树 和 
n 叉 任务 树 进 行 匹配 ,以 实现 网 格 资源 的 实时 调度 。 提 供 者 的 实时 资源 属性 ,进行 动态 的 网 
格 任务 调度 ,可 以 获得 较 好 的 负载 均衡 效果 。 在 构造 Overlay 时 借助 了 网 络 临近 原则 同时 
算法 充分 利用 了 Overlay 网 络 拓扑 提供 的 路 由 信息 ,使 用 网 络 邻 近 原 则 使 得 Chord 环 上 的 
邻居 结 点 同时 为 物理 网 络 上 邻近 的 结 点 ,从 而 以 轻 量 附加 开销 来 有 效 减 少 Overlay 层 上 的 
路 由 跳 数 ,使 得 Overlay 层 上 的 路 由 跳 数 尽量 接近 TP 层 上 的 路 由 跳 数 ,降低 RDP, 并 最 终 达 
到 提高 算法 效率 的 目的 。 大 量 的 对 比 实验 结果 表明 .算法 可 以 有 效 地 对 网 格 并 行 任务 进行 
动态 调度 ,提供 较 高 的 服务 质量 。 


7.2 基于 资源 发 现 的 网 格 资源 调度 算法 


在 进行 网 格 资源 调度 时 如 何 获取 动态 变化 的 资源 属性 的 最 新 状态 ,而 不 是 过 时 的 信息 ， 
是 进行 网 格 资源 调度 算法 必须 考虑 的 重要 问题 。 本 节 针 对 现 有 的 资源 调度 算法 往往 无 法 获 
取 资 源 的 实时 信息 等 问题 ,提出 了 一 个 适用 于 基于 Web Service 的 通用 网 格 的 资源 调度 算 
法 ,该 算法 将 网 格 资源 调度 问题 转化 为 分 布 式 资源 发 现 问题 ,在 进行 资源 调度 时 可 以 获取 资 
源 的 实时 信息 ,实现 网 格 资源 的 动态 调度 。 


7.2.1 基于 P2P 的 网 格 资源 调度 模型 


网 格 计算 的 动态 性 表现 在 很 多 方面 ,静态 属性 方面 的 不 同 ,例如 操作 系统 版 本 、 存 储 空 
间 等 ; 高度 动态 变化 的 因素 包括 可 利用 CPU、 存 储 空间 、 网 络 带宽 以 及 其 他 工作 负载 信息 
等 。 网 格调 度 算法 必须 考虑 这 些 动态 可 变 的 因素 ,从 而 可 以 对 资源 进行 更 加 有 效 的 动态 调 
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度 。 现 有 的 资源 调度 策略 ,例如 AppLes、Condor-G、Nimord-G 等 均 采 用 信息 收集 的 方式 ， 
即 通 过 LDAP 协议 查询 Globus 或 OGSI 提供 的 底层 MDS 获得 资源 信息 ,然后 进行 调度 。 
而 网 格 资源 信息 的 更 新 引擎 依赖 于 服务 器 ,其 更 新 速度 远 落后 于 资源 信息 的 变化 ,容易 出 现 
信息 过 时 的 现象 。 信 息 的 实时 性 是 评价 网 格调 度 策略 的 一 个 重要 的 评判 标准 。 与 集中 式 的 
资源 管理 相 比 ,对 等 网 络 的 最 大 优势 在 于 分 布 的 资源 发 布 和 发 现 技术 。 发 现 过 程 不 受 宿主 
设备 的 限制 ,可 以 对 网 格 进行 高 效 、 全 方位 的 搜索 。 搜 索 深 度 和 广度 在 理论 上 最 终 可 包括 网 
格 上 的 所 有 的 信息 服务 资源 ,从 而 提供 实时 、 动 态 ` 有 效 的 资源 信息 供 资源 调度 算法 使 用 。 
同时 ,P2P 作为 一 种 分 布 计算 模型 ,可 以 很 好 地 解决 集中 式 资源 调度 方法 无 法 避免 的 数据 不 
一 致 和 性 能 瓶颈 等 问题 。 

我 们 认为 ,在 高 度 动态 的 环境 中 进行 资源 调度 ,把 任务 请 求 发 布 出 去 的 方式 比 收集 资源 
信息 的 方式 更 加 有 效 , 因 为 收集 来 的 资源 信息 会 很 快 过 时 ,利用 过 时 的 资源 信息 进行 资源 调 
度 是 毫 无 意义 的 。 基 于 此 思想 ,我 们 设计 了 一 个 基于 对 等 网 络 资源 发 现 的 网 格 资源 调度 算 
法 GChord。 该 算法 把 资源 调度 问题 转化 为 资源 发 现 问题 ,网 格 结 点 的 可 利用 资源 信息 以 
服务 的 形式 发 布 ,任务 对 资源 的 需求 也 以 服务 的 形式 发 布 ,GChord 算法 使 用 扩展 的 Chord 
算法 将 任务 需求 在 网 格 中 转发 ,然后 通过 资源 发 现 的 方式 将 任务 映射 到 可 以 提供 满足 要 求 
的 资源 服务 的 结 点 上 。 

1. Chord 协议 

麻 省 理工 学 院 设计 了 一 种 分 布 式 的 可 扩展 的 查找 和 路 由 协议 Chord, Chord 通过 将 
(key,value) 对 中 的 key( 如 文件 名 ) 和 网 络 结 点 分 别 进 行 哈 希 ,并 将 哈 希 值 映 射 在 相同 的 值 
空间 ,将 (key，value) 对 存储 在 最 接近 key 的 哈 希 值 的 结 点 上 。 一 般 来 说 ,Chord 采用 一 致 
性 喻 希 方法 将 nn 个 结 点 喻 希 到 具有 logn 位 的 标识 环 上 。 每 个 结 点 x 存储 指向 它 的 直接 后 
续 Successor( 沿 环 顺 时 针 方向 的 最 近 结 点 )。 它 也 维护 一 个 有 logn 个 表 项 的 指针 表 (finger 
table)。 第 i 表 项 存储 z 十 2i 一 1 的 后 续 标 识 。Chord 路 由 算法 采用 了 类 似 二 分 查找 的 方 
法 ,每 次 查找 发 送 的 消息 数 为 O(logn)。 稳 定 状 态 下 ,在 一 个 nn 结 点 的 系统 中 ,每 个 结 点 需 
要 维持 O(log 个 其 他 结 点 信息 ,解析 查找 需要 O(logn) 个 消息 。 当 结 点 加 入 和 离开 系统 
时 ,Chord 为 维持 路 由 信息 一 致 性 最 多 发 送 O(log*n) 个 消息 。 当 路 由 信息 不 一 致 时 ,性 能 有 
限 降低 。 在 结 点 的 加 入 和 离开 比较 频繁 的 P2P 网 络 中 ,每 个 结 点 只 需要 更 新 少量 信息 就 可 
保证 正确 的 路 由 查询 。 为 了 容错 ,每 个 结 点 可 维护 一 个 后 续 链 代替 单个 后 续 。Chord 协议 
简单 ,具有 可 证 明 的 协议 正确 性 和 良好 的 性 能 。 

2. 基于 Chord 的 网 格 资源 调度 模型 

针对 网 格 环境 的 动态 性 ,如 资源 结 点 的 频繁 加 入 和 离开 、 资 源 信息 属性 的 频繁 变化 等 ， 
我 们 将 网 格 资源 组 织 在 一 个 结构 化 的 P2P Overlay 中 ,设计 了 一 个 基于 Chord 协议 的 网 格 
资源 调度 模型 GChord。 

之 所 以 选择 结构 化 的 Overlay Network, 而 不 使 用 没有 采用 非 结构 Overlay Network， 
是 因为 非 结构 化 P2P 往往 采用 洪 泛 方式 进行 资源 信息 的 发 布 和 动态 更 新 ,会 形成 很 多 元 余 
信息 , 必 将 增 大 通信 负载。 同时 ,和 其 他 协议 相 比 ,Chord 协议 简单 、. 易 维护 ,因此 选择 采用 
Chord 协议 来 维护 Overlay 上 每 一 个 结 点 的 路 由 表 。 

本 节 的 研究 工作 仍然 基于 第 6 章 提 出 的 具有 超级 结 点 对 等 网 络 Overlay Network 的 网 
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格 资源 管理 体系 结构 。GChord 假设 网 格 系统 存在 多 个 虚拟 组 织 VO, 每 个 VO 使 用 一 个 资 
源 管理 代理 (Resource Management Agent, RMA KEM VO 内 部 的 资源 信息 ; 不 同 VO 
fy RMA 组 成 一 个 使 用 Chord 协议 维护 的 环形 结构 化 P2P Overlay Network. RMA 之 间 可 
以 相互 通信 。 图 7-8 描述 了 GChord 网 格 资源 调度 模型 主要 研究 的 问题 。 


本 地 调度 一 广 域 调 度 = 


O O O = O 
资源 管理 提供 者 ”本 地 调度 
7-8. GChord 网 格 资源 调度 模型 


GChord 将 网 格 环境 中 的 调度 分 成 广 域 调度 和 本 地 调度 两 种 。 本 地 调度 指 任务 被 映射 
到 某 个 计算 结 点 之 后 ,计算 结 点 内 部 的 系统 调度 ,对 应 图 7-8 中 所 示 资 源 管理 提供 者 以 下 层 
次 的 调度 ,这 个 问题 不 属于 本 书 的 研究 范围 。 本 书 研究 广 域 调度 包括 图 7-8 中 所 示 VO 内 
部 的 调度 以 及 由 RMA 组 成 的 扩展 Chord 环 上 的 调度 。 

在 VO 内 部 ,每 个 资源 管理 提供 者 将 其 可 利用 资源 信息 以 服务 的 形式 发 布 到 所 在 VO 
的 RMA. #4 RMA 负责 维护 一 个 信息 表 和 一 个 路 由 表 ,信息 表 记录 VO 内 部 的 本 地 资源 
的 属性 ,路 由 表 用 来 记录 扩展 Chord 环 上 的 其 他 RMA 的 位 置信 息 。 和 Chord 协议 不 同 ， 
RMA 仅 维护 其 VO 内 部 的 资源 信息 ,并 不 对 其 他 RMA 的 资源 信息 进行 备份 。 当 资源 提供 
者 的 资源 属性 发 生变 化 时 ,例如 ,其 工作 负载 发 生 了 变化 ,该 结 点 使 用 push 方式 修改 RMA 
上 的 信息 表 内 容 即 可 。 

在 进行 任务 调度 时 ,将 任务 对 资源 的 请 求 使 用 Chord 协议 在 网 格 中 转发 ,在 查找 可 用 
资源 结 点 的 过 程 中 ,将 可 利用 资源 信息 和 任务 请 求 信息 进行 匹配 ,直到 找到 满足 要 求 的 结 点 
为 止 。 然 后 将 任务 部 署 到 目标 结 点 ,进入 目标 结 点 的 本 地 调度 范畴 ,开始 计算 。 图 7-9 和 
图 7-10 分 别 描述 了 GChord 网 格 任务 调度 模型 的 资源 信息 发 布 和 资源 定位 过 程 。 


生成 信息 服务 文件 生成 任务 请 求 文件 
二 UT 
FEM los SCE TERET 

图 7-9 GChord 模型 的 资源 发 布 过 程 图 7-10 GChord 模型 的 资源 定位 过 程 


如 何 把 基于 P2P 的 调度 模型 应 用 于 网 格 环境 ,例如 ,如 何 将 P2P 的 资源 查询 思想 有 效 
地 应 用 于 网 格 任务 的 调度 ,是 我 们 要 解决 的 问题 。 因 此 ,我 们 在 设计 GChord 调度 算法 时 主 
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要 解决 了 以 下 三 个 问题 : 

(1) 创建 一 个 或 多 个 结 点 可 以 注册 和 加 入 的 虚拟 组 织 ; 

D 以 服务 的 形式 发 布 结 点 可 利用 资源 信息 ; 

(3) 可 利用 资源 信息 的 服务 发 现 。 

针对 以 上 三 个 问题 , 接 下 来 的 章节 将 对 分 布 式 资源 信息 注册 器 、 信 息 服务 的 发 布 格式 以 
及 服务 发 现 的 方法 进行 详细 阐述 。 

1) 分 布 式 注册 器 

每 个 RMA 在 提供 网 格 服务 访问 的 同时 ,还 是 扩展 Chord 环 中 的 一 个 对 等 结 点 。 图 7-11 
详细 描述 了 RAM 的 各 组 件 。 


资源 服务 访问 接口 
| 
核心 部 件 

F z 

= | E 

= 务 描述 解析 器 | [SS 

d R 4 

z z 

tad 
输入 请 求 一 一 | 路 由 器 一 一 输出 结果 


7-11 RMA 的 结构 


每 一 个 RMA 包含 三 个 部 件 : 资源 服务 访问 接口 、 核 心 部 件 和 路 由 器 。 资 源 服 务 访问 
接口 以 服务 的 形式 存在 ,为 结 点 提供 了 服务 发 布 和 服务 发 现 的 接口 。 核 心 部 件 包 括 一 个 
XML 解析 器 .一 个 服务 描述 解析 器 和 一 个 服务 匹配 处 理 器 。 服 务 匹配 处 理 器 是 一 个 判断 
可 利用 资源 服务 是 否 满足 任务 需求 的 匹配 算法 ,判断 结果 通过 资源 服务 访问 接口 返回 。 
XML 解析 器 用 来 解析 资源 服务 的 XML 表示 文档 ,同时 也 可 以 被 其 他 部 件 使 用 。 路 由 器 把 
任务 请 求 在 Overlay 网 中 传递 ,还 负责 将 路 由 结果 返回 给 请 求 结 点 。 路 由 器 由 路 由 表 和 注 
册 映 射 表 构 成 ,如 图 7-12 左 半 部 分 所 示 。 路 由 表 的 结构 和 Chord 路 由 表 完全 相同 ,最 大 可 
表示 160 项 路 由 信息 ,每 一 项 由 160b 的 ID 和 32b AY IP 地址 组 成 。 路 由 表 结 构 对 应 如 图 7- 
12 右 半 部 分 。 

2) 资源 服务 的 发 布 

为 了 实现 资源 的 动态 调度 和 负载 均衡 ,资源 信息 应 该 不 断 更 新 。 采 取 不 同 的 更 新 策略 
将 大 大 影响 系统 的 性 能 。 在 GChord 中 ,每 个 RMA 将 其 可 利用 资源 信息 以 服务 的 形式 发 
布 在 路 由 器 的 注册 映射 表 中 ,如 图 7-13 所 示 。 信 息 更 新 采取 定期 更 新 和 系统 事件 触发 的 方 
式 进 行 。 图 7-14 形象 地 描述 了 在 RMA 注册 映射 表 中 存储 的 资源 服务 。 


Router ID IP Service Description List 

= Routing Table = suc | IP 1 Service 1 Description 1 

suc 2 IP 2 Service 2 Description 2 

p suc 3 IP 3 Service 3 Description 3 
Router Repository js e n A 


图 7-12 路 由 器 结构 和 路 由 表 图 7-13 注册 映射 表 
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<service> Peer id=2 
<name>...</name> 
<port>...</port> 
</service> 
<nproc>...</nproc> 
<description> 
<idlecpu>...</idlecpu> 
</description> 


Peer id=20 


Peer id=17 


Peer id=15 


Peer id=4 


Peer id=12 


7-14 资源 服务 发 布 结 点 


我 们 使 用 WSDL55 来 描述 服务 接口 。 下 面 代码 是 一 个 可 利用 资源 信息 服务 的 例子 , 服 
务 部 分 由 WSDL 文档 自动 生成 ,描述 部 分 由 结 点 的 实时 工作 负载 状况 确定 。 


<?xml version = "1.0" encoding = "UTF - 8"?> 
< services > 
<service> 
< name > ResourceService </name > 
<documentation> 
Description of the available resource 
</documentat ion > 
< location? gideon. csis. hku. hk </location> 
< port > 22 </port > 
</service> 
</services > 
<description> 
<cluster > 
< location > gideon. csis. hku. hk </location> 
< port > 22 </port > 
< type > Gideon300 </type> 
<nproc > 16 </nproc > 
< environment > MPI </environment > 
< environment > pDOCK </environment > 
< idlecpu> 3 </idlecpu> 
<availablememory > 2. 1GB</availablememory > 
</cluster > 
</description> 


fii H] location 和 port 来 描述 如 何 访问 一 个 资源 
结 点 ,对 结 点 的 硬件 模型 .包含 的 处 理 器 个 数 进行 了 
说 明 。 图 7-15 描述 了 一 个 可 提供 16 个 处 理 器 的 
Gideon300 集群 ,在 此 集群 上 可 以 运行 MPI 和 pDOCK 
程序 。RMA 使 用 idlecpu 和 availablememory 来 表示 每 i 
个 网 格 结 点 的 工作 负载 状态 ,匹配 算法 使 用 这 两 项 来 判 
断 是 否 将 任务 分 配给 此 结 点 进行 处 理 。 在 动态 环境 中 ， 


RMA I 
I VINA 


RMA n-1 
图 7-15  GChord 的 资源 发 现 过 程 
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这 两 项 的 值 容易 失效 ,因此 必须 经 常 刷新 以 确保 真实 反映 网 格 的 实时 负载 状态 。 

3) 资源 服务 发 现 

当 RMA 接收 到 任务 请 求 时 ,资源 发 现 进程 被 触发 ,此 进程 的 核心 是 对 可 利用 资源 服务 
和 任务 请 求 信 息 进 行 匹配 。 图 7-15 所 示 为 GChord 资源 定位 过 程 , 即 发 现 资源 服务 过 程 的 
例子 。RMA1 接 到 任务 对 资源 的 请 求 后 ,启动 资源 发 现 进程 。 RMAI1 首先 对 自己 维护 的 信 
息 表 进行 查找 ,如 果 不 能 找到 满足 请 求 条 件 的 表 项 ,RMAI1 按照 Chord 路 由 策略 将 请 求 发 
送 到 RMA2; RMA2 进一步 转发 该 路 由 请 求 , 直 到 找到 目标 结 点 RMAR, RMA£ 结 点 向 将 
路 由 结果 返回 给 RMA1, 然 后 RMA1 将 任务 部 署 到 RMAA 结 点 ,任务 进入 RMAA 结 点 的 
排队 系统 等 待 处 理 。 

为 了 找到 合适 的 资源 服务 ,任务 请 求 也 使 用 XML 的 格式 进行 表述 。 下 面 代码 是 一 个 
任务 请 求 的 XML 描述 格式 ,此 请 求 使 用 了 复合 条 件 。 


< request >< and »« requirement > 
< environment > pDOCK </environment > 
< cpuamount > 2 </cpuamount > 
< memroy > 200MB </memroy> 
</requirement > 
<application> 
< name > molecule docking </name > 
<binary> 
< file> binary/docktest </file> 
< inputfile» binary/docktest. infile</inputfile> 
</binary> 
< environment > pDOCK </environment > 
</application> </and></request > 


7.2.2 算法 描述 
下 面 是 GChord 算法 的 伪 代 码 。 


SS: the resource services set; 
SS(i). item: the item value of resource service i; 
RS: the request services set; 
RS(j).item: the item value of request service j; 
Chord(m): get the neighboring peer of peer m using Chord algorithm; 
Match(SS(i), RS(j)): function to decide whether the requirement of request service j can be 
satisfied by resource service i; 
Fuction Match(SS(i), RS(j)){ 
Parse RS(j). requirement; 
If each RS(j). requirement <= SS(i). item 
return True; / /Matched; 
Else return False; //UnMatched; 
} 
GChord { 
For each element in RS(i).requirement( 
If Match(SS(i), RS(i)){ 
// Check the local VO resource service firstly; 
Allocate the according task to SS(i). location; 
Update the SS(i). idlecpu; 
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} 
Else { 
j= Chord(i); 
If Match(SS(j), RS(i)) 
Exit successfully; 
Else { 
Continue GChord until all the peers have been accessed; 
Exit unsuccessfully; 
n 


GChord 算法 的 流程 图 如 图 7-16 所 示 。 


收 到 一 个 任务 请 求 服务 。 ”| 


解析 此 任务 请 求 XML 文件 | 


解析 本 地 VO 信息 表 中 的 资源 信息 服务 列表 的 
XML 文 件 


是 否 存在 一 个 资源 服务 ， 使 得 任务 
请 求 的 每 一 项 的 值 均 所 该 资源 
服务 的 对 应 项 的 值 ? 


使 用 Chord 协 议 找 将 任务 请 求 转发 至 当前 
RMA 的 下 一 个 邻居 结 点 
解析 邻居 VO 信息 表 中 的 资源 信息 服务 
列表 的 XML 文 件 


一 一 一 


是 否 存在 一 个 资源 服务 ， 使 得 任务 
请 求 的 每 一 项 的 值 均 所 该 资源 
服务 的 对 应 项 的 值 ? 


7-16 GChord 算法 流程 图 


GChord 算法 在 进行 符合 任务 需求 的 资源 服务 发 现 过 程 中 ,会 首先 检查 本 地 VO 中 是 
和 否 存在 符合 任务 执行 条 件 的 资源 提供 者 。 如 果 答 案 是 肯定 的 ,那么 任务 将 直接 在 本 地 处 理 ; 
反之 ,RMA 会 根据 Chord 路 由 表 中 的 路 由 信息 将 此 任务 请 求 转发 给 其 他 的 邻居 VO。 这 样 
设计 的 原因 是 基于 以 下 考虑 : 

GChord 算法 的 资源 发 现 过 程 并 不 是 为 了 给 每 一 个 任务 请 求 寻找 最 佳 的 解决 方案 ,而 
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是 致力 于 在 最 短 的 时 间 内 寻找 一 个 最 临近 的 可 利用 的 网 格 资源 提供 者 。 虽 然 这 可 能 会 影响 
到 网 格 系统 全 局 的 负载 均衡 效果 ,但 是 由 于 网 格 用 户 都 希望 找到 一 个 物理 位 置 尽 量 接近 本 
地 的 资源 提供 者 ,以 此 来 降低 网 络 通信 和 任务 数据 、 计 算 结果 的 传输 开销 。GChord 算法 的 
设计 方式 就 可 以 尽量 降低 路 由 开销 和 通信 开销 ,因此 其 是 可 行 的 。 


7.2.3 理论 分 析 


本 节 对 GChord 的 路 由 时 延 和 空间 负载 特性 做 了 理论 上 的 分 析 , 结 果 表明 , GChord 的 
路 由 时 延 和 空间 负载 是 合理 的 。 
1. 路 由 时 延 
我 们 使 用 在 扩展 Chord 环 中 的 逻辑 路 由 跳 数 来 分 析 算 法 的 路 由 时 延 。 因 为 Chord 算 
法 的 逻辑 跳 数 和 结 点 个 数 n 存在 logn 的 关系 ,GChord 算法 的 路 由 表 和 Chord 算法 的 路 由 
表 相 同 ,因此 GChord 算法 的 逻辑 路 由 跳 数 和 结 点 个 数 , 即 VO 个 数 或 者 RMA 个 数 ,之 间 
也 存在 logn 的 关系 , 即 路 由 时 延 随 着 结 点 个 数 的 增加 呈 指 数 增加 。 如 果 单 个 迎 辑 跳 的 时 延 
是 &, 则 全 局 时 延 为 &X1logz ,对 网 格 系统 而 言 ,该 时 延 是 合理 的 。 
2. 空间 耗费 
GChord 的 空间 耗费 包含 两 部 分 : 路 由 表 的 空间 耗费 和 注册 映射 表 的 空间 耗费 。 为 了 
便于 分 析 ,首先 给 出 一 个 定义 和 两 个 假设 。 
定义 7-6 存储 单元 。 把 路 由 ID 和 相应 IP 的 存储 大 小 计 为 一 个 存储 单元 ,大 小 用 o 表示 。 
假设 7-1 RMAs 的 ID 在 ID 空间 内 均匀 分 布 ,网 格 系统 中 共有 nn 个 RMA, 平 均 每 个 
RMA 在 其 路 由 器 的 注册 映射 表 中 发 布 m 个 可 用 资源 信息 。 
假设 7-2 每 项 可 用 资源 信息 的 平均 空间 耗费 为 kXo。 
因为 路 由 表 中 共有 logn 项 ,每 一 项 的 空间 耗费 为 a.192b, 故 路 由 表 的 空间 耗费 为 logn Xo. 
根据 定义 7-6 和 假设 7-1 .假设 7-2, 每 个 注册 映射 表 有 m 项 注册 信息 ,因此 注册 映射 表 的 空 
间 耗 费 为 mxmXkXao。 故 GChord 总 的 空间 耗费 为 
Spacecchora = logn Xo+mXk Xo (7-1) 
为 了 说 明 此 基于 结构 化 P2P 的 分 布 式 网 格 资源 注册 器 的 空间 耗费 是 合理 的 ,下 面 分 析 
集中 式 注册 器 UDDI 的 空间 耗费 ,因为 UDDI 使 用 一 个 中 央 注 册 器 来 维持 所 有 的 注册 信息 ， 
故 UDDI 的 空间 耗费 为 
Spaceupnt =nXmXkxo (7-2) 
比较 式 (7-1) 和 式 (7-2) ,可 以 得 出 结论 ,GChord 的 空间 耗费 比 UDDI 的 空间 耗费 低 得 多 。 


7.2.4 算法 实验 及 结果 分 析 


为 了 验证 GChord 调度 算法 的 性 能 ,基于 一 个 使 用 C++ 实现 的 网 格 实验 系统 ,在 真实 的 
网 格 环境 中 ,我 们 测试 了 调度 算法 的 整体 性 能 、 负 载 均 衡 特性 和 和 鲁 棒 性 ; 并 且 将 使 用 
GChord 算法 和 并 行 方式 下 的 任务 执行 时 间 做 了 比较 。 

1. 实验 环境 

网 格 实验 系统 由 分 布 在 Internet 上 的 四 台 集 群 和 通过 LAN 连接 的 四 台 PC 机 构成 , 结 
构 如 图 7-17 所 示 。 


155 
第 7 章 ‘iia 


Sunway32A Sunway64A 


路 由 器 ”路 由 器 


Gideon300 


Internet 


路 由 器 ”路 由 器 
Sunway256P 


图 7-17 网 格 实验 系统 结构 图 


使 用 本 节 扩 展 的 Chord 协议 ,将 网 格 中 的 异 构 计算 结 点 : 4 台 集 群 和 4 台 PC 机 ,通过 
高 速 以 太 网 组 织 在 一 个 超级 结 点 对 等 网 络 中 。 每 个 网 格 结 点 的 详细 配置 信息 如 表 7-3 所 
示 。 集 群 包括 3 台 神 威 (Sunway) 机 群 和 1 台 Gideon300 PC 机 群 ,其 中 ,3 台 神 威 机 群 分 别 
含有 32、64、256 个 计算 结 点 ,分 别 选取 8 颗 、8 颗 、32 颗 CPU 参与 网 格 计算 ,同时 选取 
Gideon300 上 的 16 Wi CPU 参与 网 格 计算 。4 台 PC 机 的 配置 为 : 1GHz Pentium 4 处 理 器 ， 
256MB RAM.40GB 硬盘 。 


表 7-3 网 格 实验 环境 结 点 配置 表 
主机 名 (iH 选用 CPU 数 CPU 类 型 及 主 频 NF 网 络 Dock Benchmark 值 


Sunway32A 无锡 8 Alpha/833MHz 512MB  Myrinet 4.33 
Sunway64A ”无 锡 8 Alpha/833MHz 512MB Myrinet 5.43 
Sunway256P ”北京 32 Alpha/2. 0GHz 1GB 1000Mb 9.73 
Gideon300 香港 16 Pentium4 2GHz 512MB Fast-Ethernet 7.63 
PCs 上 海 1 Pentium4 1GHz 256MB 100Mb/s Ethernet 0. 53 


定义 了 3 个 虚拟 组 织 : 2 台 位 于 无 锡 的 神威 集群 属于 VO1, 位 于 北京 的 神威 集群 和 香 
港 的 Gideon300 集群 属于 VO2.4 fs PC 机 属于 VO3。 每 个 VO 内 部 的 计算 结 点 都 可 以 将 
自己 的 可 用 资源 服务 信息 发 布 到 负责 管理 此 VO ff] RMA; 同时 ,RMA 提供 资源 访问 接口 ， 
通过 RMA 之 间 的 相互 通信 进行 服务 发 现 ,从 而 实现 网 格 任务 的 调度 。 

在 此 实验 过 程 中 ,网 格 任务 为 蛋白 质 分 子 的 DOCK 实验 , 即 计 算 一 个 大 的 蛋白 质 分 子 
结构 和 商业 分 子 数 据 库 中 的 分 子 结构 的 匹配 程度 。 蛋 白质 分 子 的 DOCK 实验 具有 高 度 的 
并 行 性 ,并行 化 后 的 子 任务 之 间 不 需要 通信 ,非常 适合 在 网 格 系统 中 进行 计算 。 实 验 过 程 中 
将 大 的 蛋白 质 分 子 和 Specs 数据 库 中 的 样本 分 子 进 行 结 构 匹 配 。 

在 进行 DOCK 实验 过 程 中 ,使 用 GChord 算法 对 实验 系统 中 可 利用 的 网 格 计算 资源 进 
行 调度 。 算 法 的 RMA 信息 表 的 资源 服务 信息 主要 包括 所 辖 VO 内 部 计算 结 点 的 空闲 
CPU 数目 和 可 利用 存储 空间 。 空 闲 CPU 数目 使 用 实时 测 得 的 系统 benchmark 值 表 示 , 量 
化 为 当前 可 利用 计算 单元 的 个 数 。 此 benchmark 值 在 实验 系统 初始 化 时 确定 ,并 且 保 持 固 
定 不 变 。 实 验 中 考虑 了 系统 进行 最 初 的 任务 并 行 化 所 需 的 时 间 和 最 后 的 任务 计算 结束 后 的 
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结果 收集 时 间 , 这 两 个 过 程 实质 上 为 各 计算 结 点 和 主 进程 所 在 结 点 之 间 的 通信 开销 ,可 以 作 
为 任务 对 资源 请 求 的 一 部 分 来 处 理 , 即 使 用 单位 CPU 数量 来 表示 。 


2. 实验 结果 


1) 整体 性 能 

我 们 使 用 任务 总 体 执行 时 间 makespan 来 评价 算法 的 整体 调度 性 能 。 为 了 分 析 算 法 的 
性 能 ,将 实验 结果 和 并 行 方式 下 的 任务 总 执行 时 间 进 行 了 比较 。 具 体 做 法 是 : 对 于 同一 个 
DOCK 实验 ,首先 在 一 台 集 群 上 进行 并 行 计 算 , 记 录 从 任务 提交 到 任务 完成 所 需 计 算 的 时 
间 。 然 后 ,将 同一 个 任务 提交 到 网 格 实验 系统 中 ,使 用 GChord 算法 进行 任务 调度 ,记录 任 
务 的 计算 时 间 。 最 后 ,在 分 析 计 算 结果 同样 有 效 的 情况 下 ,比较 两 种 不 同 的 调度 模式 下 任务 
的 计算 时 间 。 改 变 任务 的 输入 ,提交 不 同 的 大 分 子 , 或 者 选择 Specs 数据 库 中 不 同 的 样本 分 
子 , 重 复 上 述 过 程 ,进行 多 组 实验 。 图 7-18 记录 了 将 同一 个 大 分 子 和 Specs 数据 库 中 的 
1000 ,5000,10000 个 样本 分 子 进行 DOCK 匹配 计算 ,分别 在 Sunway32A、Sunway256P 上 
进行 并 行 计算 和 在 网 格 实验 系统 上 使 用 GChord 调度 算法 的 情况 下 测 得 的 任务 执行 时 间 。 
每 种 情况 的 实验 数据 是 同样 条 件 下 重复 5 次 的 平均 结果 。 


GChord Sunway256P Sunway32A | 


750 000 5 


700 000 4 
f 
350 0004 


300 0004 


执行 时 间 /s 
DD 


150 0004 
100 0004 


nos 
0 N NN | A. 
0 5000 10 000 
分 子 数 
图 7-18 不 同 环境 中 任务 的 执行 时 间 


从 图 7-22 可 以 看 出 ,得 到 同样 有 效 的 计算 结果 的 条 件 下 ,选择 1000 个 样本 分 子 进行 
DOCK ,在 并 行 方式 下 ,需要 在 Sunway32A 上 运行 71 398. 12s. fE Sunway256P 上 运行 
33 355. 65s, 而 在 网 格 实验 系统 上 使 用 GChord 调度 算法 , 仅 需要 1193s 的 计算 时 间 。 并 且 ， 
随 着 选择 的 Specs 数据 库 中 样本 分 子 的 数量 增多 ,例如 ,样本 分 子 数量 为 10 000 时 ,在 
Sunway32A 上 运行 737 591. 12s, 在 Sunway256P 上 运行 168 143. 25s, 网 格 实验 系统 需 
要 16 194s, 网 格 实验 系统 呈现 出 很 好 的 性 能 。 

由 此 分 析 可 以 得 出 结论 : 网 格 实验 系统 聚合 了 Internet 上 的 计算 能 力 , 并 且 通 过 各 个 
网 格 计算 结 点 间 的 相互 协作 ,大 大 缩短 了 蛋白 质 分 子 DOCK 实验 的 计算 时 间 , 进 一 步 说 明 
了 GChord 算法 的 整体 性 能 很 好 。 样 本 分 子 数量 越 多 ,计算 时 间 越 短 , 说 明了 由 于 网 格 结 点 
间 通 过 Chord 网 络 ,建立 了 P2P 的 协作 关系 ,可 以 加 速 计算 的 进程 。 
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2) 负载 均衡 


GChord 在 进行 资源 分 配 时 ,根据 存储 在 RMA 信息 表 中 的 计算 结 点 的 实时 资源 属性 进 
行 网 格 任务 调度 。 能 否 实现 网 格 结 点 间 的 负载 均衡 ,获得 全 网 格 的 负载 均衡 是 评价 动态 资 
源 调 度 算 法 的 一 个 重要 测度 。 为 了 评价 GChord 算法 的 动态 调度 性 能 ,本 部 分 的 实验 采用 
记录 分 配给 每 个 网 格 计算 结 点 的 任务 数量 的 方法 测量 结 点 的 负载 状态 ,以 此 来 评价 
GChord 算法 的 负载 均衡 特性 。 

Jit Sunway32A 和 Sunway256P 作为 进行 实验 的 网 格 结 点 ,因为 这 两 台 集 群 在 参与 网 格 
计算 的 CPU 数量 、 空 闲 程 度 上 有 较 大 的 区 别 , 利 于 分 析 实 验 结果 如 表 7-3 所 示 。 实 验 中 ,向 
网 格 实验 系统 提交 一 个 蛋白 质 大 分 子 ,选取 Specs 数据 库 中 一 定数 量 的 样本 分 子 进行 
DOCK 计算 ,记录 GChord 的 资源 调度 结果 , 即 分 配给 每 个 计算 结 点 的 分 子 数目 以 及 此 结 点 
当前 空闲 CPU 数量 ,然后 计算 任务 分 配 比率 。 重 复 此 实验 ,改变 样本 分 子 数量 ,记录 调度 
结果 。 表 7-4 是 分 别 选取 1000、5000、10 000 个 样本 分 子 时 的 实验 结果 。 分 析 图 中 的 数据 ， 
可 以 看 到 任务 分 配 基本 反映 了 实验 系统 中 空闲 计算 资源 的 分 布 情况 ,计算 资源 是 根据 结 点 
的 计算 能 力 和 实时 工作 负载 状态 进行 调度 的 。 实 验 数据 表明 GChord 算法 很 好 地 实现 了 网 
格 实验 系统 的 负载 均衡 功能 。 

表 7-4 网 格 实验 系统 的 负载 均衡 状态 


分 子 库 大 小 Sunway32A 计算 任务 量 ” Sunway256P 计算 任务 量 总 计算 时 间 /s 
1000 108 (10.8%) 892 (89.2%) 1193 
5000 604 (12.1%) 4396 (87.9%) 5349 

10 000 968 (9.7%) 9032 (90.3%) 16194 
30 鲁 棒 性 


GChord 采用 基于 超级 结 点 对 等 网 络 来 组 织 网 格 Overlay 网 络 拓扑 以 期 达到 提高 网 格 
实验 系统 的 鲁 棒 性 的 目的 。 这 里 设计 了 实验 来 测试 该 设计 的 有 效 性 ,随机 断 开 几 个 网 格 结 
点 ,测试 系统 重新 恢复 稳定 的 能 力 。 在 实验 中 ,使 用 4 台 PC 进行 测试 ,将 其 他 3 台 集 群 手 
动 屏蔽 。 这 样 做 的 原因 有 以 下 两 方面 : 

CD 缩短 实验 周期 。 因 为 4 台 PC 使 用 LAN 连接 ,不 使 用 Internet 上 的 通信 和 链 路 ,可 以 
大 大 减少 网 格 系统 的 通信 开销 。 

(2) 排除 集群 自身 资源 管理 软件 自 恢 复 功 能 带 来 的 干扰 因素 。 重 棒 性 实验 的 目的 是 测 
ik GChord 算法 的 P2P 特性 , 即 一 个 结 点 失效 后 ,P2P 网 络 中 的 其 他 结 点 是 否 可 以 弥补 此 结 
点 失效 带 来 的 损失 。 该 过 程 对 于 用 户 是 透明 的 。 而 集群 上 安装 的 本 地 资源 管理 软件 ,例如 
LSF 和 PBS 具有 系统 故障 恢复 功能 ,在 断 电 、 网 络 故障 等 情况 下 可 以 在 一 定 程度 上 将 意外 
中 断 的 任务 恢复 。 这 有 可 能 影响 我 们 对 实验 结果 的 分 析 。 

实验 的 具体 做 法 是 : 从 Specs 数据 库 中 选择 1000 个 样本 分 子 和 一 个 大 的 蛋白 质 分 子 
进行 DOCK 计算 ,使 用 GChord 算法 进行 调度 ,观测 计算 返回 的 结果 以 及 计算 耗费 的 时 间 。 
待 计 算 完 成 任务 总 量 的 10% 后 ,随机 断 开 一 定 比 例 的 计算 结 点 与 实验 系统 的 连接 ,模拟 网 
格 通 信和 链 路 故障 , 待 网 格 系 统 自动 重新 恢复 稳定 状态 后 ,等 待 系统 返回 完整 的 计算 结果 , 记 
录 计 算 所 需 的 总 时 间 , 分 析 计 算 结 果 的 有 效 性 。 

实验 结果 显示 ,过 了 1854s 后 ,网 格 实验 系统 返回 了 正确 的 计算 结果 。 分 析 其 原因 , 因 
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为 GChord 的 资源 管理 方式 是 P2P 模式 ,使 用 Chord 协议 来 维护 结 点 间 的 连接 ,即使 一 个 
结 点 失效 了 ,任务 能 够 传递 给 P2P Overlay 网 络 中 的 其 他 结 点 继续 执行 。 也 就 是 说 ,实验 系 
统 不 存在 明显 的 应 用 调度 失败 。 由 此 可 以 得 出 结论 ,GChord 算法 具有 很 好 的 容错 性 和 高 
的 鲁 棒 性 ,部 分 计算 结 点 的 异常 不 会 影响 系统 的 整体 性 能 。 

虽然 发 生 结 点 失效 后 ,正确 .完整 的 计算 结果 返回 的 时 间 比 正常 计算 需要 的 时 间 稍 长 
(实验 测 得 的 正常 时 间 为 1193s) ,但 重要 的 是 ,系统 可 以 返回 正确 的 计算 结果 ,这 一 点 对 于 
需要 确保 DOCK 实验 结果 正确 性 的 网 格 用 户 而 言 至 关 重要 。 

上 面 介绍 了 基于 结构 化 P2P 的 网 格 资源 管理 和 调度 算法 GChord, 该 算法 具有 自 组 织 、 
可 扩展 和 自 适 应 等 优点 ; 通过 资源 发 现 的 方式 进行 网 格 任务 的 动态 调度 ,解决 了 采用 信息 
收集 方式 进行 资源 调度 的 方法 存在 的 信息 过 时 ,数据 不 一 致 的 问题 ; GChord 对 Chord 路 由 
算法 进行 扩充 ,使 扩充 后 的 算法 能 更 加 适用 于 网 格 资源 的 动态 性 ; 算法 实现 过 程 中 主要 解 
决 了 网 格 Overlay 网 络 的 拓扑 组 织 形式 ,资源 的 发 布 方法 、 资 源 的 更 新 、 资 源 发 现 以 及 路 由 
算法 等 问题 ; 通过 大 量 的 实验 证 明了 该 方法 的 有 效 性 。 


7.3 ”基于 多 代理 协同 计算 的 负载 均衡 算法 研究 


负载 均衡 是 网 格 资源 调度 的 一 个 重要 研究 问题 ,分 布 式 系统 因为 其 物理 分 布 的 分 散 性 
和 结 点 的 自治 性 ,使 得 研究 全 局 负载 均衡 问题 比较 困难 。 经 研究 发 现 , 多 代理 系统 具有 自学 
习 、 自 组 织 的 特性 ,利用 多 代理 的 分 布 性 和 协同 性 ,通过 代理 对 未 知 部 分 知识 的 学 习 , 可 以 进 
行 分 布 式 系统 的 全 局 动态 的 资源 调度 ,因此 ,本 节 在 研究 了 多 代理 系统 的 基础 上 ,分 析 了 多 
代理 系统 可 以 应 用 于 网 格 系统 的 原因 ,然后 设计 了 rwAgent 算法 。 该 算法 基于 多 代理 协同 
计算 理论 ,通过 代理 间 的 通信 ,协同 、 自 组 织 和 调度 管理 .能 较 好 地 解决 网 格 资源 的 动态 调度 
问题 ,使 得 网 格 系统 可 以 获得 全 局 的 负载 均衡 状态 ,从 而 具有 较 高 的 吞吐 量 。 通 过 建立 数学 
模型 对 rwAgent 算法 进行 了 理论 分 析 , 最 后 使 用 实验 验证 了 算法 的 可 行 性 。 


7.3.1 多 代理 协同 计算 


负载 均衡 -一 直 是 分 布 式 系统 的 研究 热点 ,同样 也 是 网 格 资源 调度 中 的 一 个 重要 研 
究 问 题 。 如 果 一 个 网 格 系统 在 处 理 任务 时 可 以 始终 维持 良好 的 负载 均衡 的 状态 ,那么 该 网 
格 系统 就 可 以 获得 高 的 吞吐 量 , 从 而 显著 提高 网 格 系统 的 性 能 。 

目前 很 多 负载 均衡 技术 的 研究 主要 用 于 基于 集中 控制 的 系统 或 者 集群 内 部 等 ,一 般 无 
法 适用 于 分 布 的 \ 大 规模 的 、 动 态 的 、 缺 乏 集 中 控制 的 环境 。 因 此 本 节 将 对 网 格 环境 中 的 
负载 均衡 问题 进行 研究 ,以 期 达到 对 网 格 资源 进行 动态 调度 的 同时 ,实现 网 格 系统 全 局 
负载 均衡 的 目的 。 本 书 在 负载 均衡 方面 的 研究 仍然 是 基于 广 域 范围 的 , 即 网 格 的 全 局 负 
载 均 衡 状 态 ,而 网 格 结 点 内 部 的 负载 均衡 ,例如 集群 内 部 的 负载 均衡 问题 ,不 属于 本 书 的 
研究 范围 。 

针对 现 有 的 一 些 致力 于 解决 分 布 式 系统 的 全 局 负载 均衡 问题 的 研究 ,根据 实现 效果 可 
以 分 为 动态 负载 均衡 和 静态 负载 均衡 两 种 方式 ,根据 实现 方式 可 以 集中 式 调度 和 分 布 式 调 
度 两 种 方式 。 

集中 式 调度 实现 的 负载 均衡 ,被 很 多 基于 Globus Toolkit 的 网 格 系统 广泛 采用 ,例如 
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Condor-G? &i Nimrod/GP ,但 是 这 种 集中 式 调度 的 方法 ,容易 引起 单 点 失效 和 性 能 瓶颈 
问题 ,动态 调度 性 能 不 好 ,不 适用 于 网 格 结 点 频繁 加 入 和 退出 的 情况 。 此 外 ,这 些 调度 方式 
均 不 提供 QoS 的 保证 。 

分 布 式 调度 往往 采用 管道 通信 的 方式 ,例如 BMRB9 和 BLAST 系统 ,但 是 管道 方 
式 很 难 解决 多 个 资源 域 、 多 个 虚拟 组 织 之 间 的 负载 均衡 ,因为 不 同 资源 域内 的 管道 设 定 可 能 
是 不 同 的 。 如 果 一 个 分 布 式 系统 要 实现 多 个 资源 域 之 间 的 动态 的 负载 均衡 ,那么 该 系统 必 
须 能 够 正确 选取 可 以 进行 通信 的 基于 资源 域 设 定 的 管道 。 不 同 管道 问 的 通信 在 实现 上 困难 
很 大 , 现 有 的 系统 未 能 实现 这 一 点 ,所 以 ,如 果 系统 用 户 希望 进行 多 个 资源 域 间 的 负载 均衡 ， 
只 能 通过 静态 方式 实现 。 因 此 ,管道 方式 不 适合 进行 系统 的 动态 负载 均衡 调度 。 

分 布 式 系统 的 全 局 负载 均衡 因为 结 点 分 布 的 物理 分 散 性 以 及 结 点 的 自治 性 ,使 得 研究 
其 负载 均衡 问题 比较 困难 。 网 格 系统 、 对 等 网 络 等 均 由 于 结 点 的 动态 性 而 不 能 使 用 静态 管 
理 的 方式 达到 负载 均衡 的 目的 。 

经 大 量 的 研究 、 分 析 , 发 现 多 代理 系统 具有 自学 习 、 自 组 织 的 特性 ,利用 多 代理 的 分 布 性 
和 协同 性 ,通过 代理 对 未 知 部 分 知识 的 学 习 , 可 以 进行 分 布 式 系统 的 全 局 ,动态 的 资源 调度 。 

多 代理 系统 是 人 工 智能 的 主要 分 支 , 它 的 主要 任务 是 研究 有 多 个 代理 存在 的 复杂 系统 
的 构造 原理 及 独立 的 代理 行为 的 协同 机 制 。 多 代理 系统 技术 是 人 工 智能 技术 的 一 次 飞跃 。 
由 于 多 代理 系统 的 复杂 性 ,更 多 研究 集中 在 使 用 宙 器 学 习 的 方法 上 。 因 为 多 代理 系统 具有 
并 行 性 、 重 棒 性 及 可 扩展 性 ,受到 越 来 越 多 的 研究 者 的 重视 。 

1. 定义 

与 单 代理 系统 不 同 ,在 多 代理 系统 中 代理 相互 间 存 在 交互 。 从 单个 代理 的 角度 来 看 ,多 
代理 系统 环境 是 动态 的 ,代理 的 行为 受到 其 他 代理 的 影响 。 多 代理 之 问 通过 通信 ,可 以 开发 
出 新 的 规则 与 复杂 问题 的 求解 方法 ,使 得 在 具有 不 完全 知识 的 情况 下 处 理 问题 成 为 可 能 。 
同时 多 代理 问 通过 协同 ,可 以 提高 单 代理 的 问题 求解 能 力 。 多 代理 系统 具有 很 好 的 协同 性 、 
分 布 性 ,并 具有 较 强 的 学 习 能 力 、. 推 理 能 力 与 自 组 织 能 力 ,因此 可 以 大 大 提高 问题 的 求解 
效率 。 

按照 代理 问 的 异 构 度 及 代理 间 的 通信 .Stone 将 多 代理 系统 分 为 四 种 。 异 构 无 通信 、 
异 构 通信 . 同 构 无 通信 及 同 构 通信 。 图 7-19 描述 了 一 个 多 代理 系统 。 首 先 系统 将 要 求解 的 
问题 分 解 成 多 个 相互 自治 的 部 分 ,每 个 部 分 都 有 o 
自己 的 目的 ,各 部 分 之 间 可 以 进行 通信 。 代 理 的 “一 相互 作用 
心智 集合 使 用 一 个 抽象 模型 来 定义 ,该 模型 对 代 O PASE 
更 进 行 定义 ,描述 了 代理 之 间 的 相互 作用 以 及 如 TC. 
何 组 织 这 些 代理 。 此 外 ,多 代理 系统 还 需要 定义 -一 TN 一 
一 系列 的 结构 和 机 制 来 描述 当 网 络 发 生变 化 He | _， 
代理 间 的 组 织 关系 的 复杂 变化 。 Pee ee 


在 一 个 开放 的 环境 中 ,系统 中 的 代理 可 以 动 影响 域 


态 地 加 入 或 退出 系统 。 因 此 ,多 代理 的 组 织 机 制 
与 多 代理 之 间 的 相互 作用 直接 相关 。 多 代理 组 图 7-19 多 代理 系统 的 规范 视图 
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织 通 过 对 代理 的 行为 申明 和 授权 关系 给 多 代理 之 间 相 互 作用 提供 了 框架 。 按 照 Sycara 的 
观点 ,多 代理 组 织 是 对 多 代理 结构 的 概念 化 ,是 多 代理 之 间 的 信息 和 控制 关系 的 模式 表示 ， 
是 在 多 代理 之 间 问 题 求解 能 力 的 分 配 。 代 理 的 能 力 和 它们 在 总 的 决策 结构 中 的 组 织 形式 决 
定 了 整体 系统 的 行为 。 通 过 将 具有 不 同 求解 能 力 、 观 察 能 力 和 行为 特性 的 代理 用 组 织 结构 
连接 起 来 ,可 以 使 代理 的 求解 行为 在 组 织 结构 内 具有 最 大 的 自然 性 ,不 必 进 行 更 多 的 规划 和 
通信 来 进行 协调 。 

多 代理 组 织 中 的 代理 以 何 种 方式 相互 连接 ,是 多 代理 组 织 形 式 需 要 解决 的 问题 。 目 前 
多 代理 系统 的 组 织 结构 主要 可 以 分 为 三 种 : 完全 集中 式 、 完 全 分 布 式 、 集 中 与 分 布 相 结合 的 
方式 。 

在 完全 集中 式 的 多 代理 系统 中 ,协调 方法 是 由 主 控 代理 完全 扩展 从 属 者 的 行为 ,由 主 控 
代理 内 部 的 规划 器 保证 各 从 属 代理 的 行为 彼此 协调 。 集 中 式 协调 方法 降低 了 系统 的 复杂 
性 ,减少 了 用 于 协商 的 通信 开销 ,但 却 要 求 中 心 规划 器 有 较 强 的 处 理 能 力 , 要 处 理 各 种 可 能 
的 冲突 ,形成 一 个 全 局 一 致 的 方案 ,不 适合 动态 .开放 的 环境 ,因而 在 多 代理 系统 中 应 用 
较 少 。 

在 完全 分 布 式 的 多 代理 系统 中 ,各 代理 处 于 平等 的 地 位 ,彼此 之 间 行 为 的 协调 通过 各 代 
理 内 部 的 推理 机 制 或 代理 之 间 的 多 次 交互 ,必要 时 进行 协商 实现 。 这 种 多 代理 系统 最 灵活 ， 
但 是 实现 上 比较 困难 ,而 且 代 理 之 间 多 次 的 交互 协商 降低 了 系统 的 效率 。 

在 集中 与 分 布 相 结合 的 多 代理 系统 中 ,系统 中 的 代理 组 成 层次 结构 ,上 层 的 监控 代理 对 
下 层 的 受 控 代 理 有 部 分 的 控制 能 力 , 在 上 下 层 之 间 有 三 种 控制 关系 : 

CD 监控 代理 产生 一 个 完整 的 规划 并 发 给 受 控 代理 ,这 同 完全 集中 协调 方法 。 

(2) 监控 代理 只 生成 部 分 规划 并 发 给 受 控 代理 。 

(3) 监控 代理 不 生成 规划 ,只 是 发 给 接收 者 一 个 高 层 目标 。 

与 单纯 的 集中 式 或 分 布 式 的 协调 方式 相 比 ,集中 与 分 布 相 结合 的 协调 方式 的 系统 集成 
了 前 两 者 方式 的 优点 , 既 具 有 相当 的 灵活 性 ,又 具有 一 定 的 效率 ,而 且 在 实现 上 也 比较 容易 。 

多 代理 的 组 织 行为 是 通过 单 代理 有 规律 的 行为 来 体现 的 。 在 条 件 改变 时 ,代理 能 够 按 
其 理性 进行 调整 ,保持 组 织 的 结构 性 和 自然 性 ,使 整个 组 织 有 充分 的 灵活 性 以 应 付 动态 环 
境 。 组 织 重 构 是 指 当 环境 条 件 发 生变 化 时 ,或 系统 成 员 组 成 变化 时 ,对 组 织 结构 进行 调整 ， 
使 之 适应 新 情况 。 

组 织 重 构 分 为 宏观 和 微观 两 种 ,组 织 自 设计 ”9 是 对 系统 宏观 结构 进行 动态 重 构 的 方 
法 之 一 ,使 用 重 构 原 语 来 动态 改变 系统 的 宏观 结构 ,这 种 重 构 由 系统 外 部 触发 , 非 自动 进行 。 
由 内 部 触发 的 重 构 过 程 " 中 采用 基于 产生 式 的 自 组 织 分 布 式 代理 作为 微观 结构 ,代理 不 断 检 
测 系 统 性 能 ,发 现 有 必要 重组 时 则 执行 重组 原 语 。 

现 阶 段 的 多 代理 系统 在 组 织 的 适应 性 方面 的 研究 工作 还 比较 有 限 , 一 般 只 是 沿 单一 的 
纬度 ,如 最 少 部 分 约束 等 进行 。 

3. 多 代理 协同 

多 代理 协同 的 研究 工作 始 于 Actors 模型 9 ,然后 出 现 了 合同 网 协议 。 合 同 网 协议 被 
认为 是 关于 通信 、 多 代理 协同 研究 的 经 典 工作 。 在 开放 的 多 代理 系统 环境 中 ,由 于 代理 知识 
的 不 完全 性 ,多 代理 之 间 需 要 协同 交互 才能 有 效 地 合作 。 多 代理 间 的 协同 方法 主要 包括 : 
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联合 意图 模型 .共享 规划 模型 .GPGP 框架 模型 等 。 

由 Cohen 和 Levesque 等 提出 的 联合 意图 模型 是 最 著名 的 理性 代理 合作 理论 。 联 合意 
图 的 定义 通过 单 代理 的 个 体 承 诺 来 定义 。 如 果 代 理 相信 其 目标 目前 没有 实现 ,并 有 意图 实 
现 此 目标 , 它 将 一 直 保留 这 样 的 目标 ,除非 它 相 信 此 目标 已 实现 ,或 者 此 目标 永远 不 能 实现 ， 
或 者 此 目标 已 与 目前 情形 无 关 时 ,该 代理 才 放 弃 该 目标 。 

共享 规划 模型 规定 ,多 代理 之 间 有 一 个 共享 规划 , 即 有 一 个 共同 目的 。 两 个 代理 共同 相 
信 : 单个 代理 在 适当 的 时 间 能 够 执行 某 些 活动 (Activity); 对 每 个 活动 ,代理 存在 执行 此 活 
动 的 一 个 方案 (Recipe); 每 个 代理 都 有 打算 (Intend to) 在 适当 的 时 间 去 执行 它 可 以 执行 的 
特定 活动 。 代 理 不 会 采用 与 联合 活动 相 冲 突 的 意图 ,代理 与 其 他 合作 代理 通过 通信 交互 的 
方式 对 规划 的 意图 进行 交互 ,从 而 产生 对 合作 活动 的 行为 意图 。 

GPGP 框架 模型 (Generic Partial Global Planning) 的 基本 思想 是 每 个 代理 都 构造 自己 
的 局 部 活动 视图 ,视图 包含 了 活动 之 间 的 关系 以 及 代理 打算 去 执行 的 活动 。 此 视图 可 以 不 
断 增长 。 因 为 代理 之 间 会 经 常 交 换 它们 活动 执行 的 结果 信息 ,因此 ,此 视图 不 是 完全 局 部 
的 ,而 是 部 分 全 局 的 。 

在 以 上 几 种 代理 的 协同 方式 的 基础 上 ,还 产生 了 许多 适应 不 同 应 用 的 协同 方式 ,例如 根 
据 游戏 理论 解决 电子 商务 中 的 多 代理 协商 问题 ,通过 社会 法 律 来 指导 多 代理 协同 等 。 这 些 
协同 方式 中 ,都 从 不 同 的 角度 对 代理 的 协同 提出 了 不 同 的 解决 方案 。 

4. 应 用 领域 

通过 代理 间 的 通信 ,协同 、 自 组 织 及 调度 管理 ,多 代理 系统 模型 已 经 在 实际 中 得 到 了 很 
好 的 应 用 。 例 如 在 交通 控制 .智能 机 器 人 等 方面 ,可 以 通过 多 代理 间 的 协同 机 制 来 消解 相互 
间 的 冲突 ,从 而 最 大 限度 地 实现 代理 间 的 合作 ; 在 决策 支持 系统 中 应 用 多 代理 技术 ,出 现 了 
基于 多 代理 协同 的 分 布 式 智能 决策 系统 ; 在 网 络 自 动 化 与 智能 管理 方面 ,通过 定义 不 同 的 
代理 ,构成 网 络 中 的 多 代理 系统 ,利用 代理 的 智能 ,对 网 络 进行 主动 分 析 与 监测 ,从 而 有 效 地 
提高 网 络 的 效率 。 在 柔性 制造 系统 中 ,每 个 加 工 单元 可 以 看 成 一 个 独立 的 代理 ,从 而 构成 一 
个 多 代理 系统 ,通过 代理 间 的 交互 来 完成 生产 任务 的 调度 。 此 外 ,多 代理 技术 还 被 应 用 于 信 
息 检 索 、 多 处 理 器 的 协同 设计 ,分 布 式 计算 、 普 适 计算 (Ubiquitous Computing) 等 各 个 
领域 [0 。 


7.3.2 多 代理 技术 在 网 格 中 的 应 用 


多 代理 技术 已 经 在 分 布 式 计算 领域 中 得 到 了 很 好 的 应 用 ,例如 ,在 对 等 网 络 中 ,代理 位 
于 对 等 的 计算 机 上 ,相互 之 间 可 以 进行 各 种 信息 的 来 回 通信 ; 代理 还 可 以 代表 其 他 的 对 等 
系统 发 起 一 项 任务 ,例如 ,代理 可 以 被 用 来 区 分 网 络 上 的 任务 的 优先 次 序 ,改变 流量 流向 ,在 
本 地 搜索 文件 、 确 定 异 常 行为 如 病毒 并 且 在 其 影响 网 络 前 终止 该 行为 等 。 

Ian Foster 和 Cal Kesselman 等 人 认为 随 着 多 代理 技术 和 网 格 计算 的 迅速 发 展 ,两 个 研 
究 领 域 出 现 了 相互 需要 对 方 领 域 技术 的 趋势 9 。 网 格 计算 呈现 出 动态 .自治 特点 ,需要 使 
用 更 加 灵活 、 分 布 式 的 决策 能 力 来 有 效 地 实现 管理 。 另 一 方面 ,多 代理 技术 则 需要 一 个 鲁 棒 
性 好 的 分 布 式 计算 平台 来 支撑 它们 之 间 的 通信 协作、 制定 决策 .组织 重 构 和 有 效 管理 。 因 
此 ,多 代理 技术 和 网 格 计算 应 该 相互 融合 ,结合 各 自 领域 的 优势 ,解决 自身 难以 解决 的 问题 ， 
将 两 个 领域 的 研究 融合 在 一 起 。 
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将 多 代理 技术 应 用 于 网 格 计算 ,这 方面 的 研究 已 经 取得 了 一 些 成 果 , 例 如 利用 多 代理 技 
术 进 行 网 格 中 的 资源 选择 "9 ,把 资源 分 配给 任务 时 使 用 了 基于 增强 学 习 的 多 代理 技术 。 代 
理 , 即 用 来 制定 任务 分 配 策略 的 逻辑 ,利用 了 网 格 系统 的 状态 监测 .资源 发 现 和 任务 传递 等 
功能 。 另 一 方面 ,通过 代理 的 收集 作用 ,实现 了 网 格 系统 的 全 局 资源 管理 。 另 外 ,参考 文献 
[44] 利 用 多 代理 的 自动 协商 技术 (特别 适用 于 多 种 形式 的 拍卖 方 ) 进 行 网 格 系统 的 资源 分 
配 , 设 计 者 对 商品 市 场 和 Vickery 拍卖 机 制 进行 了 有 效 性 评估 。 

网 格 系统 和 多 代理 系统 在 相互 融合 的 过 程 中 可 以 采用 两 种 方式 : 层次 式 (Agent 
Systems on Top of Grid Mechanisms) 和 集成 式 (Integrated Grid/Agent Approach)? 。 层 
次 式 的 应 用 相对 比较 简单 ,容易 实现 , 即 在 Grid 系统 的 构架 上 使 用 多 代理 技术 来 解决 相关 
问题 。 而 集成 式 则 需要 两 种 技术 深层 次 的 融合 ,从 底层 的 构建 到 上 层 的 服务 ,每 个 研究 点 都 
充分 利用 两 种 技术 的 优势 ,实现 网 格 技术 的 多 代理 化 .多 代理 系统 的 网 格 化 。 

本 书 采用 层次 式 方法 解决 网 格 系统 的 负载 均衡 问题 , 即 在 网 格 系统 的 资源 管理 体系 结 
构 之 上 ,为 了 达到 网 格 系统 的 全 局 负载 均衡 ,在 进行 资源 调度 的 过 程 中 ,借助 多 代理 协同 计 
算 技术 ,实现 网 格 任务 的 动态 资源 调度 和 全 网 格 的 负载 均衡 。 


7.3.3 基于 多 代理 协同 计算 的 网 格 负载 均衡 算法 rwAgent 


基于 以 上 两 节 对 多 代理 系统 的 介绍 ,和 对 多 代理 系统 可 以 应 用 于 网 格 系统 的 研究 分 析 ， 
本 节 设 计 了 一 个 基于 多 代理 协同 计算 的 网 格 资源 调度 算法 rwAgent。 该 算法 通过 代理 间 的 
通信 ,协同 、 自 组 织 和 调度 管理 ,可 以 解决 网 格 资源 的 动态 调度 和 负载 均衡 问题 。 


1. 相关 工作 研究 


近 几 年 来 ,使 用 多 代理 技术 进行 分 布 式 系统 的 资源 调度 和 负载 均衡 的 研究 工作 已 经 取 
得 了 一 些 进展 ,主要 包括 利用 Software Agent 进行 P2P 系统 和 网 格 系统 中 的 应 用 研究 , 例 
如 资源 调度 .资源 发 现 的 算法 设计 55 ,提供 调度 QoS 保证 的 调度 机 制 研究 "99, 基于 多 代理 
的 网 格 中 间 件 、 网 格 系统 、P2P 系统 的 设计 ""' 包 等。 参考 文献 [49] 通 过 实验 评价 了 利用 多 
代理 技术 进行 负载 均衡 的 几 种 策略 。 以 下 就 其 中 几 种 调度 算法 做 简单 的 分 析 。 

1) Messor 

参考 文献 [45] 中 详细 描述 了 Messor 的 工作 原理 ,基于 蚂蚁 群体 (Ant Colonoly) 的 行为 
模式 ,Messor 算法 利用 一 群 自治 ant 来 均衡 网 格 系统 中 的 负载 。 在 进行 网 格 资源 调度 时 ， 
每 个 Messor ant 携带 着 任务 在 系统 中 随机 游 走 ,只 有 在 ant 游 走 了 一 段 时 间 (for a while), 
并 且 没 有 遇 到 重 载 结 点 的 情况 下 ,ant 才 选 择 将 此 任务 放下 (drop-off) ,反之 ,ant 会 继续 携 
带 任务 游 走 。Messor ants 的 目的 是 将 网 格 任务 尽量 分 配给 不 同 的 网 格 结 点 ,使 得 任务 在 系 
统 中 分 散 分 布 ,而 不 是 将 任务 堆积 在 一 个 结 点 .以 此 来 保持 系统 的 负载 均衡 状态 。 此 外 ,在 
生命 周期 内 ,每 个 Messor ant 有 两 个 状态 SearchMax 和 SearchMin。 在 处 于 SearchMax 状 
Sif, ant 试图 寻找 一 个 重 载 结 点 。 如 果 存 在 这 样 一 个 重 载 结 点 ,ant 记录 此 结 点 的 ID ,同时 
自己 的 状态 变 成 SearchMin ,继而 寻找 一 个 轻 载 结 点 。 在 找到 轻 载 结 点 后 ,ant 会 使 用 调度 
器 将 重 载 结 点 的 任务 到 这 个 轻 载 结 点 ,之 后 ,ant 的 状态 又 转变 成 为 SearchMax, 开 始 下 一 
个 寻找 重 载 结 点 的 过 程 。 
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2) ARMS 

ARMS559 是 将 多 代理 技术 应 用 于 网 格 系统 的 一 个 典范 ,有 很 多 后 续 的 研究 工作 都 基于 
此 系统 展开 。ARMS 旨 在 使 用 多 代理 技术 来 提高 网 格 系统 的 可 用 性 和 适应 性 ，ARMS 
Agents 之 间 可 以 进行 直接 通信 ,以 此 来 进行 资源 发 布 和 资源 发 现 ,把 网 格 资源 分 配给 不 同 
的 网 格 任务 ,实现 资源 调度 。ARMS Agents 是 同 构 的 ,并 且 被 组 织 在 一 个 层次 式 结构 中 ， 
在 系统 实现 过 程 中 ,利用 了 资源 性 能 预测 器 PACE。 

3) MWP 

在 ARMS 的 研究 基础 上 ,不 同 的 研究 小 组 对 多 代理 在 网 格 中 的 应 用 进行 了 不 同 程度 的 
改进 ,例如 在 参考 文献 [46] 中 ,Agent 在 作为 Service 提供 服务 的 同时 ,还 可 以 转发 服务 请 
求 。 使 用 ASM(Agent Service Manager) S: Agent 的 创建 .删除 和 管理 ,包括 对 Agent 的 
监控 和 调度 。 在 创建 Agent 时 ,给 不 同 的 Agent 赋予 一 定 的 优先 级 ,根据 优先 级 的 顺序 将 
Agent 存储 在 一 个 堆 结 构 中 。 在 服务 发 现 , 即 资源 调度 过 程 中 使 用 Agent 的 优先 级 来 实现 
一 定 程度 的 QoS 服务 。 此 文 对 ARMS 做 了 两 点 改进 : 第 一 ,利用 Agent 的 Local 
Knowledge, 当 同一 个 服务 被 请 求 两 次 时 ,第 二 次 的 查找 时 间 要 比 第 一 次 的 查找 时 间 短 得 
多 ; 第 二 ,实现 了 一 定 程度 的 负载 均衡 ,Agent 在 进行 服务 查找 时 ,首先 在 本 地 资源 域 进行 
资源 发 现 , 而 不 是 其 他 资源 域 。 如 果 本 地 资源 域内 不 存在 这 样 的 服务 ,或 者 本 地 负载 过 重 
时 ,Agent 负责 在 其 他 域内 进行 服务 发 现 。 

4) Anthill 

Anthill ££—4-3t-F. Ant Colonoly 的 多 代理 模拟 器 ,可 以 用 来 模拟 和 分 析 多 代理 算 
法 的 性 能 。 基 于 和 其 他 多 代理 模拟 工具 包 不 同 ,Anthill 是 一 个 P2P 的 系统 ,其 Java 原型 系 
统 基于 Sun Micorsystems 的 JXTA59 构 建 , 可 以 提供 P2P 算法 的 性 能 分 析 。 另 外 ,Anthill 
实现 了 单个 ant 在 模拟 状态 和 实际 运行 状态 的 统一 配置 ,因此 在 发 布 一 个 蚂蚁 算法 时 不 需 
要 重新 对 其 进行 配置 。 

2. 算法 原理 

研究 表明 "号 现 有 的 负载 均衡 算法 ,如 集中 式 调度 采用 的 FIFO 和 Genetic Algorithm, 
适合 于 进行 本 地 调度 ,而 多 代理 技术 适合 于 广 域 . 全 局 的 资源 调度 。 同 时 , 现 有 的 资源 发 现 
方式 pull, push 方式 分 别 适用 于 服务 变化 较 快 .请 求 变化 较 快 的 环境 ,而 在 服务 和 请 求 均 呈 
现 高 度 动态 变化 的 网 格 环境 、P2P 环境 中 ,多 代理 技术 则 充分 显示 了 其 优点 。 

本 节 提 出 了 rwAgent 算法 ,将 软件 多 代理 的 概念 引入 网 格 系统 的 资源 调度 中 ,实现 网 
格 系统 全 局 的 负载 均衡 。 本 节 的 研究 工作 仍然 以 第 6 章 提 出 的 具有 超级 结 点 对 等 网 络 的 网 
格 资源 管理 体系 结构 为 研究 基础 。 超 级 结 点 组 成 一 个 使 用 Chord 协议 维护 的 环形 结构 化 
P2P Overlay Network ,超级 结 点 之 间 可 以 相互 通信 。 

网 格 系统 中 ,任务 执行 结 点 上 的 工作 负载 状态 是 动态 变化 的 ,同时 也 会 因为 网 格 结 点 的 
频繁 加 入 和 离开 ,使 得 系统 没有 固定 的 网 络 拓扑 。 在 此 动态 变化 的 环境 中 ,很 难 获得 每 个 结 
点 的 实时 工作 负载 状态 。 因 此 ,集中 式 的 资源 调度 和 负载 均衡 方法 ,例如 由 服务 器 分 配 任 务 
给 客户 端的 主 从 结构 不 适合 应 用 于 网 格 系统 。 多 代理 技术 则 非常 适用 于 这 种 动态 的 、 只 能 
获得 局 部 信息 的 网 格 环境 。 因 为 单个 代理 会 根据 网 格 结 点 的 实际 工作 负载 情况 ,结合 自己 
的 学 习 经 验 , 通 过 和 其 他 代理 的 相互 协作 ,作出 决策 ,从 而 实现 由 部 分 到 全 局 、 由 已 知 到 未 知 
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的 动态 资源 调度 和 负载 均衡 。 

rwAgent 算法 充分 利用 P2P 技术 和 多 代理 技术 的 优点 ,使 用 系统 中 的 多 个 代理 间 的 相 
互 协作 来 实现 网 格 系统 的 广 域 负 载 均衡 。 图 7-20 描述 了 rwAgent 算法 应 用 的 网 格 环境 。 
图 中 的 代理 生成 器 (Agent Originator) 负 责 生 成 系统 中 的 所 有 代理 ,每 一 个 网 格 结 点 都 可 以 


是 一 个 代理 生成 器 。 
a 风格 结 点 


代理 生成 器 
xo | a 网 格 结 点 
网 格 结 点 
网 格 结 点 
Las -- 
a 网 格 结 点 


NEL 


7-20 rwAgent 的 P2P 结构 


rwAgent 算法 的 基本 思想 是 : 在 网 格 系统 将 用 户 提交 的 任务 并 行 化 为 多 个 子 任务 之 
后 ,进行 任务 并 行 化 的 该 结 点 就 是 一 个 Agent Originator ,负责 生 成 和 子 任务 同样 数量 的 代 
理 。 生 成 的 多 代理 和 系统 中 的 子 任务 一 一 对 应 。 每 个 代理 携带 一 个 子 任务 的 任务 请 求 
QoS 在 网 格 中 按照 Chord 路 由 协议 移动 , 即 在 网 格 系统 Overlay 层 上 的 各 个 超级 结 点 之 间 
移动 。 此 时 ,代理 是 主动 的 ,在 遇 到 一 个 处 理 结 点 时 ,可 以 自由 地 选择 是 否 将 其 携带 的 子 任 
务 “ 放 下 ”, 即 判断 是 否 将 这 个 子 任务 分 配给 此 结 点 处 理 。 如 果 选 择 “ 放 下 ”这 个 子 任务 ,代理 
会 记录 该 处 理 结 点 的 信息 (如 Overlay 上 的 位 置 或 者 IP 地 址 ), 然 后 返回 原始 的 Agent 
Originator; 由 网 格 系统 将 子 任务 传输 给 处 理 结 点 , 子 任务 将 加 入 该 结 点 的 任务 排 人 队列 等 
待 处 理 。 如 果 代 理 认为 某 个 结 点 不 能 满足 子 任务 的 QoS 请 求 , 代 理会 继续 移动 ,直到 找到 
满足 任务 请 求 QoS 的 处 理 结 点 为 止 。 

rwAgent 算法 规定 ,代理 在 遇 到 某 个 结 点 时 ,根据 此 结 点 的 实时 工作 负载 状态 做 出 是 
否 将 所 携带 的 子 任务 交 给 此 结 点 处 理 的 决策 。 如 果 此 时 该 结 点 轻 载运 行 ,可 以 提供 满足 子 
任务 需求 QoS ,代理 会 做 出 将 此 子 任务 交 由 此 结 点 处 理 的 决定 ,将 此 子 任务 “放下 ”, 同 时 ， 
该 代理 获得 一 定 的 正 收益 ,收益 的 大 小 根据 结 点 接受 子 任务 后 后 自身 负载 的 状态 确定 。 反 
之 ,如 果 此 时 结 点 重 载 、. 或 过 载运 行 ,代理 会 选择 携带 子 任务 请 求 QoS 在 Overlay 网 中 继续 
游 走 , 直 到 遇 到 可 获得 正 收益 的 结 点 为 止 。 从 算法 的 设计 可 以 看 出 ,系统 中 的 每 个 子 任务 需 
求 ,或 者 说 子 任务 本 身 是 “移动 ”的 ,因此 ,可 以 直接 把 每 个 子 任务 看 作 一 个 代理 。 

rwAgent 算法 的 代理 之 间 并 不 直接 通信 ,而 是 驻 留 在 每 个 超级 结 点 上 的 知识 库 里 。 代 
理 在 经 过 某 个 结 点 时 做 出 的 调度 决策 ,以 及 其 因此 而 获得 收益 都 将 存储 在 知识 库 里 。 那 么 
当 其 他 代理 再 经 过 此 结 点 时 ,可 以 根据 知识 库 提 供 的 其 他 代理 的 历史 信息 帮助 制定 调度 
决策 。 

与 其 他 多 代理 系统 不 同 ,rwAgent 算法 规定 ,代理 不 能 将 子 任务 分 配给 重 载 . 过 载运 行 
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的 结 点 ,也 就 是 说 ,代理 的 收益 均 为 正 收 益 , 不 存在 负 收 益 。 这 种 设计 可 以 保证 网 格 系统 处 
理 任务 的 有 效 性 ,不 会 因为 某 个 结 点 的 过 载运 行 ,长 时 间 不 返回 计算 结果 ,造成 任务 的 再 调 
度 ,浪费 大 量 的 计算 资源 和 存储 空间 。 

判断 一 个 结 点 的 负载 状态 是 轻 载 还 是 重 载 ,可 以 有 几 种 判别 方式 。 第 一 ,可 以 取决 于 此 
结 点 当前 任务 排队 队列 中 任务 数 的 多 少 ,如 果 排 队 队 列 的 长 度 很 长 , 称 此 结 点 为 重 载运 行 ， 
反之 ,为 轻 载 运行 。 第 二 ,如 果 一 个 任务 所 需 的 计算 资源 数量 可 以 预先 测定 ,那么 结 点 的 负 
载 状态 也 可 以 根据 结 点 当前 可 提供 的 计算 资源 数量 判定 。 如 果 结 点 当前 可 利用 的 计算 资源 
数量 不 足以 满足 任务 的 计算 要 求 , 则 称 此 结 点 为 重 载运 行 ,反之 ,为 轻 载 运行 。 除 此 两 点 之 
外 , 结 点 是 重 载 还 是 轻 载 运行 ,还 和 Agent 最 近 访 问 的 所 有 结 点 的 平均 负载 相关 。 如 果 和 
其 他 结 点 相 比 ,当前 结 点 可 以 提供 较 多 的 计算 资源 ,或 者 排队 队列 的 长 度 相 对 较 短 , 则 认为 
此 结 点 为 系统 中 的 轻 载 结 点 ,反之 ,为 重 载 、 或 过 载 结 点 。 通 过 这 几 种 方式 的 定义 ,rwAgent 
算法 保证 了 Agent 可 以 仅 根据 局 部 .本 地 的 信息 来 决定 是 “放下 ?任务 ,还 是 携带 任务 继续 
移动 ,而 不 需要 获得 网 格 系统 的 全 局 知识 。 

图 7-21 所 示 描 述 了 网 格 结 点 的 多 代理 组 织 结构 ,网 格 系统 中 的 每 个 超级 结 点 均 由 四 个 
部 分 组 成 : 可 供 任务 使 用 的 网 格 资源 .代理 生成 器 ,决定 代理 采取 何 种 行为 的 决策 器 以 及 负 
责 结 点 内 部 资源 调度 的 本 地 资源 调度 器 。 这 些 网 格 结 点 组 织 在 一 个 具有 超级 结 点 拓扑 结构 
的 对 等 网 络 中 ,每 个 结 点 都 是 计算 对 等 的 。 


THERE dei 
> 本 地 资源 调度 器 
决策 器 
网 格 资源 
知识 库 
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7-21 网 格 结 点 的 多 代理 组 织 结构 


3. 算法 描述 

rwAgent 算法 的 实现 基于 以 下 三 个 假设 。 

假设 7-3 每 个 代理 都 是 主动 的 ,可 以 自主 选择 是 否 加 入 网 格 结 点 的 排队 队列 。 

假设 7-4 如 果 选 择 加 入 的 网 格 结 点 的 负载 较 轻 ,代理 会 获得 一 定 的 正 收益 。 代 理 不 
允许 加 入 过 载运 行 的 网 格 结 点 。 

假设 7-5 对 单个 任务 请 求 而 言 ,系统 初始 化 后 ,代理 的 总 数量 不 再 改变 。 

假设 某 一 时 刻 网 格 系统 中 共有 N 个 子 任务 待 到 调度 ,网 格 系统 的 空闲 计算 资源 使 用 量 
化 的 CPU 数量 和 网 络 带 宽 来 表示 。 例 如 ,如 果 某 个 网 格 结 点 当前 可 提供 m 个 单位 的 计算 
资源 ,意味 着 该 结 点 的 CPU 数量 和 网 络 带 宽 可 以 用 m 个 数量 单位 来 衡量 。 一 个 结 点 上 只 
有 一 个 排队 队列 TT 的 最 大 长 度 为 zx。 网 络 性 能 使 用 测定 的 超级 结 点 间 网 络 延 迟 的 样本 
平均 值 。 

rwAgent 算法 流程 图 如 图 7-22 所 示 。 
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下 面 给 出 了 rwAgent 算法 的 伪 代 码 。 


CS: nodes set that satisfy the requests of the sub- jobs; 
|CS|: total number of the idle resource units in CS; 


R[i]:array of the idle resource unit amount of node i; pond 
N: number of the sub- jobs; 路 由 协议 移动 
Node(i): node whose idle resource units is i; 

T[i]: array to present the team of node i in CS; 遇 到 需要 计算 
|T[i]|: length of T[i]; 负载 程度 的 结 点 


Agent — based load balance algorithm { 


CS-0; 
M= |CS| ; : 
I-[Tli]l; Li 
for each R[ i] ( E EU 
if (R[i] satisfies the requests of the sub- job) { 排队 对 列 等 待 处 理 
CS Node (R[i]); 


M=M+m; 
n 图 7-22. rwAgent 算法 的 流程 图 
for each T[i] { 
I=I+ [N/M* m]; 


if I> n{ 
One agent leaves T[i]; 
I-I-1; 


for each moving agent( 
j= Chord(i).successor; 
//using Chord routing protocol to find the successor node of i 
if ( (|T[j]| > n) or (it continues to keep moving) Continue; 
else { 
7[3] = |7[ 31] * 1; 
Break; 
n 
else 
sub- task stays in T[i] and waits to be processed; 
n 
rwAgent 可 以 实现 网 格 系统 全 局 的 动态 负载 均衡 ,和 其 他 多 代理 系统 不 同 。 例 如 
ARMS 和 Messor 等 ,ARMS Messor 都 采用 了 层次 式 结构 对 代理 进行 管理 ,而 rwAgent 采 
用 P2P 的 管理 方式 ,代理 之 间 完 全 对 等 。 同 时 ,ARMS 需要 使 用 PACE 对 结 点 的 性 能 进行 
预 估计 ,而 rwAgent 不 需要 任何 的 先 验 知识 ,是 自 配 置 的 ,代理 根据 自己 在 移动 过 程 中 获取 
的 知识 作为 资源 调度 的 判断 依据 。 


7.83.4 数学 建 模 


为 了 从 理论 上 分 析 、 验 证 算法 设计 的 正确 性 和 可 行 性 ,采用 数学 建 模 的 方式 进行 分 
析 ,求证 是 否 存在 一 个 网 格 的 全 局 负载 均衡 状态 ,分 析 为 了 达到 此 负载 均衡 状态 而 付出 
的 代价 是 否 合理 ,例如 为 达到 负载 均衡 状态 .代理 游 走时 间 、 调 度 结 点 的 等 待 时 间 是 否 过 
长 等 。 

参考 文献 [51] 使 用 一 个 简单 的 本 地 策略 描述 了 代理 之 间 的 Coalition Formation 关系 ， 
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基于 此 文 的 工作 ,本 节 设计 了 一 个 相似 的 模型 来 描述 rwAgent 算法 中 多 代理 之 间 的 协作 关 
系 。 因 为 rwAgent 代理 的 行为 是 参考 文献 [51] 中 代理 行为 的 逆 过 程 。 
1. Coalition Formation 模型 


在 处 理 一 个 任务 时 ,使 用 多 代理 系统 之 所 以 能 够 获得 比 使 用 单个 代理 更 优 的 性 能 ,其 中 
很 重要 的 一 个 原因 就 是 多 代理 之 间 的 协同 工作 ,又 称 Coalition Formation。 描 述 代 理 间 的 
Coalition Formation ,传统 的 方式 是 使 用 协商 ,但 是 计算 和 通信 的 复杂 程度 使 得 这 种 方式 不 
适应 于 大 规模 的 系统 。 参 考 文献 L51] 提 出 了 一 个 本 地 策略 的 机 制 ,假设 代理 是 随机 移动 ` 相 
互 影 响 的 本 地 实体 。 当 两 个 代理 相遇 时 ,一 个 新 的 Coalition 形成 ,如 果 有 第 三 个 代理 加 入 
时 ,此 Coalition 将 随 代理 的 个 数 而 增长 。 使 用 一 个 宏观 的 数学 模型 来 表示 代理 间 的 这 种 行 
为 ,模型 描述 了 Coalition 的 个 数 和 分 布 情况 随时 间 的 变化 而 变化 的 规律 。 此 模型 规定 : 代 
理 以 一 定 的 概率 离开 Coalition ,因此 提高 了 模型 的 普遍 适应 型 。 

2. rwAgent 模型 

在 rwAgent 算法 进行 网 格 资源 调度 时 ,每 个 子 任务 由 代理 携带 着 在 网 格 中 按照 Chord 
路 由 协议 移动 , 当 遇 到 一 个 网 格 计算 结 点 时 ,代理 可 以 根据 当前 结 点 的 负载 程度 以 及 自己 的 
先 验 知识 来 确定 是 否 将 此 子 任务 分 配给 该 结 点 处 理 。rwAgent 算法 的 设计 思路 和 参考 文 
献 [51]j 的 假设 类 似 , 即 代理 都 是 主动 的 , 均 以 一 定 的 概率 离开 或 加 入 一 个 Coalition。 不 同 
之 处 在 于 : rwAgent 算法 中 ,在 适当 条 件 下 ,代理 将 任务 “放下 ”, 而 在 参考 文献 [51] 中 ,代理 
将 “购买 ? 即 “ 拾 起 ”目标 实体 。 除 此 之 外 ,rwAgent 算法 中 的 代理 按照 Chord 协议 来 决定 自 
己 的 下 一 跳 路 由 ,而 参考 文献 [51] 中 的 代理 在 网 络 中 随机 游 走 。 可 以 认为 ,rwAgent 代理 
的 行为 是 参考 文献 [51] 中 代理 行为 的 逆 过 程 。 基 于 参考 文献 [51] 中 的 宏观 模型 ,本 部 分 设 
计 了 一 个 类 似 的 数学 模型 来 描述 网 格 资源 调度 过 程 中 rwAgent 代理 的 行为 ,从 而 对 算法 的 
负载 均衡 等 性 能 给 出 理论 分 析 。 

在 定义 数学 模型 之 前 ,首先 给 出 几 个 定义 。 

n 代表 某 结 点 任务 排队 队列 的 最 大 长 度 , 在 1 时刻, 长 度 为 i 的 队列 用 zi;(D 来 表示 。 

初始 化 时 ,系统 中 共有 N 个 代理 ( 子 任务 ), NN 三 n。 根 据 假设 7-3, 初 始 化 以 后 ,系统 中 


的 代理 总 数量 不 变 , 即 5 ix; Q)=N. BU 7-1 描述 了 随 着 时 间 的 变化 ,排队 队列 长 度 的 
变化 。 
模型 7-1: 


n n—l 
z= 2Djx- Da, 一 2Az — x, D Arı 
k=3 


= k=2 


XxX’=— Dir; t+ Dinti tA rz — At 2<i<n-1 


, 
z,=— Dx, + Dam2- 


在 以 上 各 式 中 : 》) iz =n. A; 20.D;70.2;20.1 jns x! 即 da; (t)/dt; RA t Iž 
i=l 


队列 长 度 的 变化 率 ; 加 入 率 A; 表示 代理 加 入 一 个 长 度 为 i 的 队列 的 概率 ; 离开 率 D; 表示 
代理 离开 长 度 为 i 的 队列 的 概率 ; 加 入 率 A 和 离开 率 DD; 根据 代理 在 网 格 中 执行 负载 均衡 
几 分 钟 后 的 经 验 值 确定 。 
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模型 7-1 能 很 好 地 描述 网 格 系统 的 全 局 负载 均衡 状态 。 例 如 ,第 一 个 等 式 中 的 2D,z。 
表示 一 个 代理 离开 长 度 为 2 的 队列 后 ,系统 中 会 形成 两 个 长 度 为 1 的 队列 ; —2A a} 表示 
当 一 个 代理 离开 一 个 长 度 为 1 的 队列 ,加 入 另外 一 个 长 度 为 1 的 队列 后 ,系统 中 会 形成 一 个 
长 度 为 2 的 队列 。 当 3L emn it, Dir: 表示 一 个 代理 离开 一 个 长 度 为 & 的 队列 ,加 入 一 个 
空闲 的 队列 后 , 变 成 一 个 长 度 为 1 和 一 个 长 度 为 人 一 1 的 队列 。 当 2<k<n 一 1 时 ,一 Alziz 
表示 当 一 个 代理 离开 一 个 长 度 为 1 的 队列 ,然后 加 入 一 个 长 度 为 k 的 队列 后 ,系统 中 形成 了 
一 个 长 度 为 & 十 1 的 队列 。 模 型 7-1 的 每 一 项 都 和 负载 均衡 的 特性 一 一 对 应 。 

参考 文献 [51] 已 经 证 明了 模型 7-1 存在 一 个 稳定 的 负载 均衡 状态 ,这 种 状态 是 zi 的 
PRR: 


a = f(a) —cxi, l&ixn (7-3) 
A: 
-= lye, = AAA ; 
a =1,¢ = D:D; =D, ° 2<i<n 


从 式 (7-3) 中 可 以 看 出 ,系统 的 负载 均衡 程度 取决 于 代理 加 入 和 离开 结 点 的 概率 。 
评价 一 个 负载 均衡 算法 的 性 能 ,最 重要 的 一 个 标准 是 为 了 达到 负载 均衡 状态 而 付出 的 
代价 是 否 合理 。 在 评价 rwAgent 算法 性 能 时 , 主要 考虑 了 算法 的 总 体 收 益 , 即 为 达到 负载 
均衡 状态 .实现 系统 的 高 吞吐 量 ,调度 结 点 的 平均 等 待 时 间 。 在 每 个 代理 都 获得 了 自身 的 最 
大 收益 时 ,算法 的 全 局 收益 最 大 5 。 
假设 x" = Cat ,zx? ,… ) 是 模型 7-1 的 唯一 解 ,每 一 个 代理 占有 同样 的 服务 时 间 T, 
T>0。 可 以 证 明 : 在 是 否 需要 达到 全 网 格 的 负载 均衡 状态 的 两 种 情况 下 ,模型 7-1 的 总 体 
收益 是 不 同 的 : 
E= N(N— DT/2 Mi 1)Tz /2 
ERIT MU NS 
SN TOS 2 ai 
根据 式 (7-3) 可 以 得 到 : 
i Eu = (Ze) ( ÈPON— Dezi) >0 (7-4) 


由 此 可 知 , 模 型 7-1 的 总 体 收益 4 各 >0, 随 着 排队 队列 最 大 长 度 的 增 大 ,模型 7-1 的 总 


体 收益 会 越 大 。 

此 结论 表明 : 结 点 的 性 能 越 高 ,可 以 达到 的 全 网 格 的 负载 均衡 状态 会 越 好 。 这 对 于 网 
格 系统 的 设计 和 实现 非常 重要 ,在 组 建 虚拟 组 织 、 选 择 超 级 结 点 时 ,需要 考虑 选择 那些 性 能 
高 的 结 点 作为 超级 结 点 ,例如 超级 集群 等 。 同 样 , 客 户 结 点 的 能 力也 尽 可 能 选择 计算 能 力 好 
的 结 点 。 

这 个 结论 是 显而易见 的 ,同样 的 资源 管理 方式 下 ,完全 由 高 性 能 计算 机 组 成 的 网 络 总 是 
要 比 仅 由 几 台 普通 计算 能 力 的 计算 机 组 成 的 网 络 具有 更 高 的 计算 能 力 。 

这 也 从 另 一 个 角度 进一步 证 明了 使 用 超级 结 点 对 等 网 络 有 利于 使 网 格 维持 一 个 全 局 负 
载 均 衡 状态 ,从 而 获得 更 好 的 计算 性 能 。 
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式 (7-3) 说 明 , 通 过 调整 A; 和 D. 的 值 ,模型 7-1 可 以 获得 一 个 很 好 的 性 能 。 在 
rwAgent 中 ,代理 加 入 或 离开 结 点 排队 队列 的 概率 和 队列 的 长 度 i、 结 点 的 负载 能 力 
C(N/M X n) ÆA H: 


FÒ m= P(e x 
式 中 ,是 调整 系数 ,这 个 值 由 代理 的 经 验 确 定 。 


7.3.5 算法 实验 及 结果 分 析 


本 节 我 们 首先 使 用 仿真 的 方法 将 rwAgent 算法 和 Messor 算法 进行 了 比较 ,包括 算法 
的 路 由 特性 、 达 到 负载 均衡 的 时 间 进 行 了 比较 。 进 一 步 ,为 了 验证 rwAgent 算法 在 实际 网 
格 环境 中 的 调度 性 能 ,在 一 个 网 格 系统 实验 平台 上 ,结合 具体 的 计算 密集 型 任务 , 对 
rwAgent 算法 的 整体 性 能 ,任务 分 配 情况 、 负 载 均衡 度 进行 了 实验 测试 。 

1. 仿真 实验 

仿真 程序 使 用 GT-ITM 网 络 拓 扑 产生 器 建立 了 具有 超级 结 点 对 等 网 络 拓扑 的 网 格 环 
境 。GT-ITM 网 络 拓 扑 中 的 Transit Domain 对 应 网 格 中 的 超级 结 点 ,Stub Domian 对 应 网 
格 中 的 由 超级 结 点 维护 的 客户 结 点 集合 。 网 格 规模 为 28800, 共 有 400 个 超级 结 点 。 所 有 
结 点 都 通过 SHA-1 安全 哈 希 函数 得 到 ,路 由 表 的 行 数 为 8, 列 数 为 8。 结 点 在 网 络 中 随机 分 
布 。 网 络 连接 分 为 局 域 网 (LAN) 和 广域网 WAN) ,实验 中 WAN 的 带宽 均匀 分 布 在 区 间 
[0.5, 1.0] GE fJ Mb/s) LAN 的 带宽 均匀 分 布 在 区 间 [2.5，5]( 单 位 为 Mb/s)。 仿 真 程 
序 会 周期 性 地 更 新 客户 结 点 的 可 用 资源 信息 .索引 信息 ,以 此 来 模拟 网 格 结 点 的 排队 队列 长 
度 的 变 。 更 新 数据 由 NWS 测定 实际 应 用 系统 得 到 ,包括 结 点 负载 .CPU 空闲 率 等 。 设 定 
结 点 的 计算 速率 按 均匀 分 布 随 机 分 布 在 200、400、600、800 和 1000( 单 位 为 Mflop/s) 之 间 。 
这 些 跟踪 数据 使 得 模拟 环境 能 够 仿真 实际 网 格 环境 的 资源 异 构 性 特征 。 同 时 ,仿真 程序 还 
会 周期 性 地 维护 超级 结 点 的 路 由 表 和 和 邻居 信息 。 实 验 不 考虑 通信 延迟 和 通信 和 链 路 竞争 。 实 
验 给 每 个 结 点 赋予 一 定 的 生命 周期 ,以 此 来 模拟 结 点 的 加 入 和 退出 。 仿 真实 验 中 使 用 的 
GT-ITM 参数 如 表 7-2 所 示 。 

网 格 任务 的 表现 形式 为 对 客户 结 点 可 利用 资源 信息 的 请 求 。 仿 真 程序 假定 任务 总 数 为 
1000 ,任务 请 求 的 发 起 过 程 服从 泊 松 分 布 ,平均 到 达 间 隔 时 间 为 8s。 任 务 的 输入 数据 大 小 
相同 ,输入 文件 使 用 实际 应 用 系统 的 数据 ,其 中 , 设 定 任 务 对 资源 的 需求 量 按 均匀 分 布 随机 
产生 ,分 布 区 间 为 [0. 1.100]. 

在 调度 过 程 中 ,rwAgent agent 在 移动 时 将 Chord 标识 环 中 当前 结 点 的 后 继 结 点 作为 
路 由 方向 ; Messor ant 则 随机 地 从 路 由 表 中 选择 一 个 结 点 作为 移动 目标 。 

1) 平均 服务 质量 QoS 

如 7.1.5 节 所 述 ,本 实验 中 使 用 平均 响应 率 来 评价 rwAgent 算法 的 整体 服务 质量 
QoS。 在 分 析 平均 响应 率 时 ,将 rwAgent 算法 和 Messor 算法 的 平均 响应 率 进 行 比较 。 仿 
真实 验 中 ,分 别 记 录 同 一 个 任务 在 不 同 的 调度 算法 下 的 执行 时 间 ,计算 任务 的 响应 率 ; 然后 
改变 任务 输入 数据 的 大 小 ,进行 了 几 组 测试 。 图 7-23 记录 了 任务 输入 大 小 分 别 为 IMB, 
2MB,3MB,4MB 时 ,在 两 种 不 同 的 调度 算法 下 ,重复 执行 任务 10 次 ,获得 的 实验 结果 。 

从 图 7-23 可 以 看 出 ,两 种 算法 的 平均 响应 率 都 随 着 任务 输入 数据 的 增加 而 降低 ,但 是 
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) l<ic<n (7-5) 


170 


等 网 络 、 网 格 计算 与 云 计算 一 一 原理 与 安全 


0.265 —=—rwAgent 
—e— Messor 


o 


3 


ES 


2 
任务 大 小 MB 
7-23 rwAgent 和 Messor 的 平均 响应 率 (QoS) 比 较 


rwAgent 算法 的 QoS 明显 高 于 Messor 算法 。 例 如 ,任务 输入 数据 大 小 为 1MB 时 ， 
rwAgent 算法 的 平均 响应 率 为 0.231 ,而 Messor 算法 为 0.217。 随 着 输入 数据 的 增 大 , 即 任 
务 计算 量 越 来 越 大 的 情况 下 ,两 种 调度 算法 的 平均 响应 率 均 有 所 下 降 , 并 且 呈 现 出 几乎 相同 
的 趋势 : 随 着 任务 输入 数据 量 持续 增 大 ,平均 响应 率 下 降 速 度 降 低 。 例 如 , 当 任 务 输 入 由 
2MB 增长 为 3MB 时 ,rwAgent 和 Messor 的 平均 响应 率 分 别 下 降 了 0.024 和 0. 01, 而 当 输 
入 变 为 4MB 时 ,rwAgent 和 Messor 的 平均 响应 率 分 别 下 降 了 0.007 和 0. 006。 

对 于 这 种 实验 结果 ,可 以 给 出 以 下 两 种 解释 : 

(1) rwAgent 和 Messor 两 种 算法 的 代理 在 经 过 一 段 时 间 的 工作 后 ,可 以 根据 自己 的 经 
验 作出 正确 的 判断 ,从 而 提高 了 算法 的 效率 。 

(2) 经 过 代理 长 时 间 的 协作 ,两 种 算法 都 能 够 获得 较 好 的 负载 均衡 效果 ,从 而 使 得 模拟 
系统 能 够 有 较 高 的 吞吐 量 ,提高 了 调度 性 能 。 

从 实验 结果 可 以 看 出 ,rwAgent 算法 的 QoS 明显 高 于 Messor 算法 ,分 析 其 原因 ,可 以 
认为 : Messor 算法 为 了 追求 好 的 负载 均衡 效果 ,需要 ant 在 SearchMax 和 SearchMin 两 个 
状态 间 进 行 切换 ,虽然 整个 系统 的 负载 可 以 达到 良好 的 均衡 状态 ,但 是 无 疑 增加 了 开销 。 而 
rwAgent 算法 虽然 也 力求 保持 系统 的 全 局 负载 均衡 ,但 是 首先 要 确保 用 户 可 获得 的 QoS, 
例如 ,对 用 户 而 言 , 任 务 运行 时 间 越 短 越 好 。 因 此 ,rwAgent 算法 在 全 局 负载 均衡 状态 和 任 
务 执行 时 间 之 间 做 了 折 中 ,规定 rwAgent agent 不 会 处 理 已 经 调度 过 的 任务 , 即 agent 不 会 
为 了 均衡 结 点 间 的 负载 而 对 以 调度 的 任务 进行 二 次 调度 ; 代理 仅 根 据 自 己 的 先前 经 验 知识 
来 确保 新 任务 调度 的 负载 均衡 效果 。 这 点 与 Messor 算法 代理 需要 为 了 均衡 结 点 间 的 负载 
而 进行 任务 迁移 是 完全 不 同 的 。 实 验 结果 证 明 : rwAgent 算法 的 折 中 设计 可 以 保证 任务 高 
到 达 率 时 ,算法 仍 能 获得 较 高 的 响应 率 . 这 一 点 对 于 网 格 终端 用 户 而 言 至 关 重 要 。 由 以 上 分 
析 可 以 得 出 结论 : rwAgent 算法 的 平均 响应 率 优 于 Messor 算法 。 

2) 路 由 效率 

rwAgent agent 移动 时 遵循 Chord 路 由 协议 ,而 Messor ant 则 采取 游 走 (wonder) 的 方 
式 , 因 此 ,设计 了 这 个 实验 来 比较 两 种 调度 算法 的 路 由 效率 。 仿 真实 验 中 ,记录 rwAgent 算 
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法 在 调度 任务 时 agent 所 需 的 平均 路 由 跳 数 ,然后 和 Messor ant 执行 负载 均衡 时 的 平均 路 
由 跳 数 进行 比较 ,如 果 rwAgent 算法 的 路 由 跳 数 小 于 Messor 算法 , 则 认为 rwAgent 算法 的 
路 由 效率 高 于 Messor 算法 。 通 过 这 种 方法 来 测试 rwAgent 算法 Chord 路 由 协议 进行 任务 
调度 的 设计 是 否 有 效 。 测 得 的 实验 结果 如 图 7-24 所 示 。 

0.5 


—s— rwAgent 
—*— Messor 


0.4 


0 2 4 6 8 1012141618202224 
逻辑 路 由 跳 数 


7-24 rwAgent 和 Messor 的 路 由 跳 数 概率 密度 函数 


图 7-24 将 rwAgent 算法 和 Messor 算法 的 路 由 跳 数 的 概率 密度 函数 进行 了 比较 。 
rwAgent 算法 PDF 最 大 时 的 路 由 跳 数 为 9, 对 应 的 PDF 的 值 为 0.22; Messor 算法 PDF 最 
大 时 的 路 由 跳 数 为 12 ,对 应 PDF 值 为 0.25。 图 7-30 的 实验 数据 反映 出 ,rwAgent 算法 的 
路 由 跳 数 明显 小 于 Messor 的 路 由 跳 数 。 说 明和 Messor 算法 的 随机 游 走 设计 相 比 ， 
rwAgent 算法 采用 Chord 路 由 协议 来 决定 agent 移动 方向 的 设计 是 正确 有 效 的 。 

2. 网 格 实验 系统 测试 

网 格 实验 系统 共 包 括 五 个 网 格 结 点 : 一 台 SGI Onyx3800 集群 和 四 台 PC 机 ,各 结 点 通 
过 上 海 交 通 大 学 的 100Mb/s 校园 网 连接 。SGI Onyx3800 集群 位 于 上 海 超级 计算 中 心 上 
海 交大 分 中 心 。 四 台 PC 机 的 配置 为 : 1GHz Pentium 4 处 理 器 ,256MB RAM, 40GB 
人 硬盘 。 

在 实验 过 程 中 ,向 网 格 系统 提交 一 个 大 的 蛋白 质 分 子 , 进 行 DOCK 计算 ,以 此 来 作为 网 
格 任务 。 样 本 分 子 数据 库 采 用 Specs 数据 库 。 

在 进行 DOCK 实验 过 程 中 ,使 用 rwAgent 算法 对 实验 系统 中 可 利用 的 网 格 计 算 资 源 
进行 调度 ,实现 全 网 格 的 负载 均衡 。 网 格 结 点 的 负载 程度 使 用 空闲 CPU 数目 和 可 提供 
CPU 数目 的 比值 来 表示 。 空 闲 CPU 数目 使 用 实时 测 得 的 系统 benchmark 值 表示 ,量化 为 
当前 可 利用 计算 单元 的 个 数 ,此 benchmark 值 在 实验 系统 初始 化 时 确定 ,并 且 保 持 固 定 
不 变 。 

1) 执行 时 间 makespan 

使 用 任务 总 体 执 行 时 间 makespan 来 评价 rwAgent 算法 的 整体 调度 性 能 。 为 了 分 析 算 
法 的 性 能 ,将 实验 结果 和 不 使 用 任何 调度 策略 、 使 用 调度 策略 但 不 考虑 负载 均衡 ,两 种 情况 
下 测 得 的 任务 总 执行 时 间 进 行 了 比较 。 具 体 做 法 是 : 对 于 同一 个 DOCK 实验 ,首先 在 一 台 
集群 上 进行 计算 ,此 过 程 不 使 用 任何 网 格调 度 策略 ,只 是 单纯 地 将 任务 以 并 行 的 方式 处 理 ， 
记录 从 任务 提交 到 任务 完成 所 需 计 算 的 时 间 。 然 后 ,再 将 同一 个 任务 提交 到 网 格 实验 系统 
中 ,使 用 rwAgent 算法 进行 调度 .主要 以 实现 全 网 格 的 负载 均衡 为 目的 ,记录 任务 的 总 执行 
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时 间 。 最 后 ,在 分 析 计 算 结果 同样 有 效 的 情况 下 ,比较 两 种 不 同 的 调度 模式 下 任务 所 需 的 计 
算 时 间 。 改 变 任务 的 输入 ,提交 不 同 的 大 分 子 , 或 者 选择 Specs 数据 库 中 不 同 的 样本 分 子 ， 
重复 上 述 过 程 , 进 行 了 多 组 实验 。 图 7-25 记录 了 将 同一 个 大 分 子 和 Specs 数据 库 中 的 
1000,5000,10 000 个 样本 分 子 进行 DOCK 匹配 计算 ,分别 在 Sunway32A 上 进行 并 行 计 算 
和 在 网 格 实验 系统 上 使 用 rwAgent 调度 算法 的 情况 下 , 测 得 的 任务 执行 时 间 。 每 种 情况 的 
实验 数据 是 同样 条 件 下 重复 5 次 的 平均 结果 。 


ZZ Sunway32A 
rwAgent 


执行 时 间 /s 


5000 
代理 数 


图 7-25 不 同调 度 模式 下 任务 的 执行 时 间 


从 图 7-25 可 以 看 出 ,得 到 同样 有 效 的 计算 结果 的 条 件 下 ,选择 1000 个 样本 分 子 进行 
DOCK 实验 ,在 不 使 用 调度 策略 的 情况 下 ,需要 在 Sunway32A 上 运行 71 398. 12s, 在 网 格 实 
验 系统 上 使 用 rwAgent 负载 均衡 算法 ,需要 2311. 56s 的 计算 时 间 。 随 着 选择 的 Specs 数据 
库 中 样本 分 子 的 数量 增多 ,例如 ,样本 分 子 数量 为 10 000 时 ,需要 在 Sunway32A 上 计算 
737 591. 12s, 网 格 实验 系统 中 ,rwAgent 负载 均衡 算法 仅 需要 16 835. 92s。 

计算 两 种 不 同调 度 方式 的 加 速 比 , 得 到 rwAgent 对 SGI Onyx3800 的 加 速 比 分 别 为 
30. 88、57.09、43. 81。 由 此 看 出 , 随 着 样本 分 子 数量 的 增多 .计算 时 间 变 长 ,经 过 代理 自身 经 
验 的 积累 ,rwAgent 算法 呈现 出 更 好 的 性 能 。 

由 此 实验 分 析 可 以 得 出 结论 : rwAgent 算法 可 以 进行 有 效 的 网 格 资源 调度 ,明显 加 快 
了 计算 的 进程 ; 通过 多 代理 之 间 的 协作 ,提高 了 系统 的 吞吐 量 。 

2) 负载 均衡 度 (Load Balance Level) 

为 确保 网 格 系统 的 负载 均衡 ,rwAgent 算法 必须 避免 把 任务 分 配 到 工作 负载 重 的 计算 
结 点 上 ,同时 ,为 了 保持 系统 的 可 用 性 ,也 不 能 把 结 点 的 计算 资源 一 次 耗 尽 。 因 此 ,我 们 希望 
和 4 台 PC 机 相 比 ,吞吐 量 、 计 算 能 力 都 相对 高 的 SGT 机群 可 以 承担 大 部 分 的 任务 。 因 此 ， 
本 小 节 设 计 了 测量 系统 负载 均衡 程度 的 实验 。 实 验方 法 如 下 : 向 网 格 实验 系统 提交 一 个 蛋 
白质 大 分 子 , 选 取 Specs 数据 库 中 一 定数 量 的 样本 分 子 进行 DOCK 计算 ; 在 指定 的 观测 时 
刻 , 记 录 每 个 计算 结 点 用 于 进行 DOCK 实验 的 计算 资源 数量 。 因 为 每 个 子 任务 的 大 小 是 相 
同 的 ,因此 , 结 点 参与 计算 的 计算 资源 数量 可 以 反映 出 rwAgent 算法 分 配给 结 点 的 计算 任 
务 量 ,从 而 可 以 评价 系统 的 负载 均衡 程度 。 


173 
#78 "— 


为 了 验证 式 (7-5) 的 正确 性 , 即 代理 加 入 还 是 离开 队列 的 概率 会 影响 网 格 系统 能 达到 的 
负载 均衡 程度 ,我 们 记录 了 A.D; 和 调整 系数 & 的 取 值 情况 ,如 图 7-26 所 示 。 例 如 ,在 
5 : 00am 的 观测 时 刻 ,rwAgent 算法 的 各 个 参数 取 值 分 别 为 N — 3000.4; =0. 0001, A; = 
D;=9.1<i<3000,.k=0.021; 而 在 13 : 00am HT 23]. N=3000,A, —0. 0001,A;=D;=6,1< 
i 过 3000,k 二 0.045。 通 过 比较 这 两 个 不 同时 刻 的 各 结 点 的 状态 ,发 现 两 种 情况 下 DDGrid 
网 格 的 负载 均衡 程度 是 不 同 的 。 因 此 ,可 以 做 出 结论 ,实验 结果 验证 了 式 (7-5) 的 正确 性 , 基 
于 多 代理 协同 计算 的 rwAgent 算法 可 以 使 网 格 系统 获得 很 好 的 负载 均衡 特性 。 
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图 7-26 rwAgent 算法 的 负载 均衡 状态 


7.4 资源 管理 和 调度 算法 在 新 药 研 发 网 格 中 的 应 用 


本 章 中 所 有 实际 运行 环境 中 的 实验 数据 都 是 在 新 药 研发 网 格 平台 DDGrid 上 测 得 的 。 
结合 本 书 的 研究 工作 ,在 开发 过 程 中 ,Internet Computing 实验 室 网 格 与 P2P 研究 小 组 的 其 
他 成 员 江南 计算 技术 研究 所 高 性 能 计算 组 `、 上 海 药物 所 、 香 港大 学 ETI 研究 所 以 及 香港 大 
学 计算 机 系 的 研究 人 员 提 出 了 许多 宝贵 的 意见 ,并 给 予 了 很 多 无 私 的 帮助 ?。DDGrid 是 一 
个 利用 分 布 在 Internet 上 的 高 性 能 工作 站 的 过 剩 计算 资源 进行 药物 筛选 计算 的 计算 网 格 
系统 , 它 提 供 的 功能 包括 网 格 系统 资源 的 管理 .调度 、 任 务 监 控 . 计 费 统 计 和 用 户 管理 等 。 
它 的 主要 组 件 是 用 C++ 语言 实现 的 ,具有 路 平台 、 高 可 扩展 等 特性 。 本 节 首 先 介 绍 了 
DDGrid 的 体系 结构 ,然后 对 它 的 一 些 核 心 组 件 进 行 剖 析 ,最 后 通过 一 个 实例 冰 明 了 它 的 
应 用 前 景 。 


7.4.1 新 药 研发 网 格 项 目 背 景 
药物 研究 和 医药 产业 在 国民 经 济 发 展 过 程 中 起 着 举足轻重 的 作用 ,可 以 带 来 巨大 的 经 济 
效益 和 社会 效益 ,医药 产业 的 利润 率 很 高 ,高 居 全 球 企业 的 榜首 ,第 二 位 和 第 三 位 的 分 别 是 电 


© DDGrid 的 含义 是 新 药 研发 网 格 (Drug Discovery Grid). DDGrid 的 研发 是 国家 863 网 格 重大 专项 “高 性 能 计算 
机 及 其 核心 软件 ”(No.。2002AA104270) 的 重要 子 课 题 。 
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讯 业 和 计算 机 产业 。 同 时 ,药物 研究 可 以 实现 人 口 与 健康 领域 的 国际 目标 。 无 疑 ,医药 产业 将 
ERE 21 世纪 新 的 经 济 增长 点 和 支柱 产业 。 然 而 ,新 药 研 发 和 发 展 的 过 程 周期 长 .耗资 巨大 ， 
一 种 药物 从 随机 筛选 化 合 物 开 始 ,到 最 后 上 市 ,需要 10 ~ 12 年 的 时 间 、3. 5 一 5. 5 亿美 元 的 经 
费 。 图 7-27 是 新 药 研发 和 发 展 的 基本 流程 。 


先导 结构 及 优化 
| 
Pase 2ag NY 
i | co | stam | 临床 前 研究 
o PES 
o 临床 研究 


O —— — 
计算 机 药物 设计 — te 
En 


7-27 新 药 研发 和 发 展 的 流程 


从 图 7-27 中 可 以 看 出 ,新 药 研发 的 核心 之 一 是 从 大 量 的 化 合 物 样品 库 中 发 现 有 药理 活 
性 的 化 合 物 ,此 过 程 称 为 药物 筛选 。 进 行 药物 筛选 的 方式 分 为 两 种 : 常规 药物 筛选 和 虚拟 
药物 筛选 。 虚 拟 药物 筛选 又 称 计 算 机 药物 筛选 ,需要 首先 通过 计算 机 筛选 ,使 得 实际 筛选 的 
化 合 物 集 中 几 千 倍 ,也 就 是 说 通过 计算 机 对 几 万 个 化 合 物 数据 库 的 筛选 ,合成 上 百 个 化 合 物 
进行 实物 筛选 即 可 。 国 际 上 公布 的 计算 机 药物 筛选 的 命中 率 为 2% 一 24 昕 ,而 常规 药物 得 
选 的 命中 率 仅 为 0.01%~0.001%。 所 以 计算 机 的 应 用 不 仅 可 以 成 千 上 万 售 地 提高 药物 筛 
选 的 有 效 性 ,同时 可 以 大 量 减少 新 药 研制 的 成 本 和 时 间 。 虚 拟 药物 筛选 需要 大 量 的 计算 
资源 。 

利用 高 性 能 计算 机 进行 虚拟 药物 筛选 是 现 阶段 普遍 采用 的 一 条 途径 。 

使 用 高 性 能 计算 机 研究 发 现 活性 化 合 物 结构 ,并 对 上 述 化 合 物 结 构 重 新 组 合生 成 新 化 
合 物 数据 库 ,重复 上 述 虚拟 药物 筛选 ,从 而 发 现 新 的 性 能 更 好 的 化 合 物 。 这 种 虚拟 药物 筛选 
的 方式 可 以 提高 药物 筛选 的 有 效 性 ,缩短 新 药 研发 的 成 本 和 周期 。 但 是 ,使 用 计算 机 进行 药 
物 筛 选 也 面临 如 下 一 些 问题 : 

CD 化 合 物 分 子 数据 库 的 规模 增 大 ,今后 几 年 将 增加 到 1000 万 个 化 合 物 左 右 , 计 算 量 
会 相应 提高 5 fir. 

(2) 由 于 计算 机 组 合 化 合 物 库 设计 与 计算 机 药物 筛选 相 结合 ,计算 机 将 设计 大 量 的 虚 
拟 化 合 物 供 药 物 筛选 ,进一步 提高 计算 量 。 

(3) 人 类 基因 组 计划 的 完成 ,将 提供 大 量 的 可 用 于 疾病 治疗 的 分 子 靶 标 ,使 得 计算 机 药 
物 筛选 的 工作 量 提高 几 十 倍 。 

(4) 目前 计算 机 筛选 的 正确 性 仍然 处 在 定性 水 平 , 随 着 方法 的 改进 ,将 向 半 定 量 和 定量 
化 发 展 ,计算 量 将 大 幅度 增加 。 

虽然 高 性 能 计算 可 以 大 大 提高 药物 筛选 的 效率 ,然而 , 随 着 越 来 越 多 的 应 用 提交 到 集群 
上 ,集群 的 工作 负载 越 来 越 重 时 ,终端 用 户 等 待 计算 结果 返回 的 时 间 会 越 来 越 长 。 这 个 问题 
最 直接 的 解决 方案 是 改善 硬件 的 配置 ,但 是 这 种 方案 费用 高 ,并 且 不 能 够 从 根本 上 解决 问 
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题 。 因 此 ,迫切 需要 新 一 代 的 计算 技术 支撑 新 药 研 发 中 的 虚拟 药物 筛选 。 

研究 表明 ,Internet 上 有 很 多 闲散 的 计算 资源 ,并 且 很 多 用 户 愿 意 将 自己 的 空闲 资源 贡 
ik eh 3e 0759 ,因此 可 以 充分 利用 现 有 的 分 散在 Internet 上 的 集群 的 空闲 资源 来 处 理 新 药 研 
发 领域 的 应 用 ,而 不 需要 购置 新 的 硬件 。 同 时 ,网 格 计算 提供 了 资源 共享 .资源 虚拟 化 的 技 
术 , 终 端 用 户 可 以 如 同 访 问 一 台 设 备 一 样 ,直接 使 用 网 格 中 各 种 异 构 资 源 而 不 必 关 心 它们 所 
在 的 位 置 . 底 层 结构 。 现 阶段 已 经 有 很 多 网 格 系统 在 处 理科 研 领 域 的 数据 密集 型 应 用 5 ， 
例如 ,SETI@home、Condor 和 NetSolve。 这 些 技术 使 得 采用 一 种 全 新 的 途径 来 解决 上 述 问 
题 成 为 可 能 。 因 此 ,我们 设计 并 实现 了 新 药 研发 网 格 DDGrid, 旨 在 利用 分 布 在 Internet 上 
的 集群 贡献 的 空闲 计算 资源 ,利用 网 格 技术 ,结合 所 做 的 资源 管理 和 资源 调度 方面 的 研究 成 
果 , 来 处 理 药物 筛选 领域 的 数据 密集 型 应 用 。 


7.4.2 相关 工作 


受到 SETI@Home"* 寻 找 外 星 文明 ”计划 的 启发 ,已 经 开发 出 一 些 @Home 的 分 布 式 药 
物 筛选 软件 ,如 Oxford 大 学 的 Life-saver@ Home, Scripps 研究 所 的 FightAIDS@ Home 
等 。 这 些 软件 都 是 基于 Internet 的 P2P 对 等 计算 ,利用 Internet 上 的 PC 机 空闲 资源 进行 
药物 筛选 的 研究 。 每 一 个 参与 者 下 载 一 个 程序 ,在 PC 机 空闲 时 该 程序 作为 屏幕 保护 程序 
进行 运算 ,计算 结束 后 将 计算 结果 发 回 服务 器 。 例 如 其 中 的 一 个 癌症 药物 筛选 计划 ,吸引 了 了 
全 球 逾 150 万 台 PC 机 参与 计算 , 共 筛 选 了 35 亿 的 化 合 物 分 子 。 然 而 @ Home 的 P2P 计算 
仍然 存在 其 不 足 之 处 ,首先 ,药物 筛选 的 计算 周期 不 能 保证 ,另外 ,@Home 不 能 提供 服务 ， 
这 种 缺陷 限制 了 它 的 进一步 应 用 。 
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DDGrid 利用 网 格 环境 和 网 格 计算 资源 进行 药物 筛选 ,并 且 提 供 筛 选 服务 。 平 台 具 有 
统一 应 用 网 格 界面 ,用 户 经 身份 论证 后 ,只 需 提 交 作 业 即 可 获得 结果 而 无 须 考 虑 如 何 实现 。 
该 网 格 最 大 限度 地 利用 中 国 国 家 网 格 的 空闲 计算 资源 ,无论 是 哪个 计算 中 心 的 并 行 计 算 机 ， 
只 要 加 入 DDGrid ,其 空闲 计算 资源 就 可 能 被 DDGrid 利用 。 如 果 某 一 时 刻 其 计算 资源 繁 
忙 ,药物 筛选 计算 就 会 自动 暂停 ,让 出 计算 资源 , 待 到 有 足够 的 计算 资源 空闲 时 重新 启动 计 
算 。 因 此 ,DDGrid 需要 通过 网 格 结 点 内 和 结 点 间 的 进程 调整 和 负载 控制 来 完成 计算 资源 
的 调度 ,最 终 完成 任务 的 计算 ,返回 计算 结果 。 这 是 一 个 复杂 的 过 程 ,需要 详细 的 规划 。 首 
先 应 从 需要 网 格 提供 的 服务 开始 ,仔细 考虑 网 格 的 基本 结构 ,如 何 使 这 些 基础 架构 模块 有 效 
地 融合 在 一 起 ,这 些 基 本 的 模块 包括 安全 ,资源 管理 ,信息 服务 和 数据 管理 ,这 些 将 影响 到 应 
用 的 架构 设计 和 配置 。 

图 7-28 所 示 是 DDGrid 的 体系 结构 。 从 图 中 可 以 看 出 ,这 是 一 种 分 层 式 、 可 扩展 的 系 
统 结构 。 逻 辑 上 可 以 将 整个 系统 划分 为 三 层 : 应 用 层 、 网 格 中 间 件 、 网 格 结 点 。 从 功能 上 
看 ,系统 主要 提供 任务 提交 任务 调度 、 任 务 计 算 等 主要 功能 。 

在 应 用 层 上 ,分 布 式 网 格 门 户 实现 了 网 格 任务 的 自动 提交 功能 ,其 分 布 式 设计 加 强 
了 系统 的 鲁 棒 性 ,从 而 使 系统 可 以 同时 接受 多 个 网 格 任务 的 提交 ,并 且 采 用 了 几 种 方法 
来 优化 网 格 通信 ,例如 限制 合法 用 户 上 传 文件 的 大 小 .采取 数据 加 密 压 缩 的 方式 进行 结 
果 回 传 等 。 
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分 布 式 网 格 门 户 


应 用 层 
K 23 
[ume 任务 预 处 理 | | | 任务 并 行 化 | ESNE 


jaa 

加 密 | "| gg 

| 四 ET 任务 调度 | | 结果 收集 || | 任务 监控 | | 任 务 管理 
任务 


通信 优化 


任务 提交 


FIRE 


"bed 


网 格 结 点 


irm | 计算 间 | 计算 任务 计算 
结 点 [| Gia | 结 点 
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任务 调度 层 首先 对 提交 到 网 格 中 的 任务 进行 数据 提取 、 预 处 理 和 并 行 化 ,形成 多 个 并 行 
的 子 任务 ; 然后 通过 一 定 的 调度 策略 对 这 些 子 任务 进行 调度 ,调度 过 程 中 能 够 保证 数据 的 
安全 、 实 现 网 格 系统 的 负载 均衡 ; 计算 结束 后 可 以 进行 结果 收集 ,形成 有 效 的 计算 结果 返回 
给 用 户 ; 任务 管理 模块 允许 用 户 对 自己 的 任务 进行 删除 .同时 允许 系统 管理 员 对 任务 进行 
重新 启动 ; 系统 还 能 够 对 任务 的 执行 情况 进行 监控 ,包括 任务 的 进度 .资源 分 配 情况 .所 使 
用 的 计算 资源 数量 等 ,这 些 数据 都 将 是 网 格 计 费 管理 的 重要 依据 。 

调度 结束 后 ,处 在 任务 计算 层 中 的 网 格 结 点 开始 计算 分 配 来 的 子 任务 ,计算 结束 后 将 结 
果 回 传 给 任务 调度 层 。 在 此 层 中 ,网 格 结 点 组 织 在 一 个 超级 结 点 对 等 网 络 中 , 结 点 分 为 超级 
结 点 和 其 所 辖 域内 的 计算 结 点 。 通 过 超级 结 点 可 以 对 分 配 到 所 辖 域 内 的 子 任务 进行 二 次 调 
度 , 因 此 可 以 实现 DDGrid 系统 的 二 级 负载 均衡 。 当 前 ,DDGrid 能 够 最 大 限度 地 利用 中 国 
国家 网 格 的 空闲 计算 资源 来 为 蛋白 质 分 子 对 接 DOCK 实验 提供 计算 服务 。 将 来 ,DDGrid 
将 能 够 利用 Internet 上 各 种 可 利用 资源 来 为 虚拟 药物 筛选 领域 的 多 种 数据 密集 型 .计算 密 
集 型 应 用 提供 服务 。 


7.4.4 主要 组 件 设 计 


由 于 整个 系统 的 设计 与 实现 涉及 很 多 内 容 , 对 这 些 组 件 进行 逐个 剖析 已 超出 了 本 书 的 
范围 ,因此 下 面 只 对 其 中 的 一 些 关 键 组 件 进行 分 析 , 包 括 分 布 式 网 格 门户 设计 以 及 进行 网 格 
任务 调度 过 程 中 涉及 的 一 些 关键 技术 。 
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1. Grid Portal 设计 


DDGrid 的 Grid Portal 采用 了 分 布 式 的 系统 结构 ,从 而 可 以 同时 处 理 多 个 用 户 提交 的 
网 格 任务 ,并且 加 强 了 系统 的 鲁 棒 性 ,防止 因为 一 个 结 点 失效 造成 整个 网 格 不 能 访问 的 情况 
发 生 ,提高 了 网 格 的 访问 能 力 。 

如 图 7-29 所 示 ,Grid Portal 可 以 提供 的 主要 功能 包括 用 户 管理 、 任 务 管 理 、 任 务 监控 、 
结果 下 载 等 。 


DDGrid 门户 网 站 


分 布 式 应 用 服务 器 


用 户 1 ean | 任务 ! 完 成 | 任务! 结果 O 

用 户 2 任务 2 | 任务 ?处 理 中 | 任务 3 结果 

用 户 3 gas | eonim 

用 户 注册 || | 提交 任务 DDGrid 中 间 件 
刷新 Fa 

信息 修改 || | 出 除 修改 


用 户 端 浏览 器 _ > DDGrid 门户 网 站 


7-29 分布 式 网 格 门 户 的 功能 模块 


DDGrid 的 用 户 管理 模块 具有 新 用 户 注 册 、 用 户 信 息 修 改 等 功能 。 只 有 合法 的 注册 用 
户 才能 够 使 用 DDGrid 提供 的 药物 筛选 服务 , 即 提交 网 格 计算 任务 .下 载 计算 结果 查看 网 
格 建设 情况 等 。 合 法 用 户 还 将 获得 一 个 自己 的 密 钥 ,该 密 钥 由 网 格 安全 管理 模块 根据 用 户 
信息 自动 生成 ,用 户 使 用 该 密 钥 才 可 以 得 到 计算 结果 的 明码 。 
注册 用 户 可 以 提交 计算 任务 到 网 格 ,在 任务 提交 后 ,用 户 具 有 对 此 任务 进行 删除 .重新 
计算 的 操作 权利 。 如 果 用 户 将 此 任务 删除 ,网 格 将 回收 此 任务 目前 占用 的 资源 ,同时 将 部 分 
已 经 计算 完成 的 结果 丢弃 。 

在 任务 的 计算 过 程 中 ,用 户 还 可 以 对 任务 的 计算 进度 进行 监控 ,例如 查看 该 任务 的 调度 
情况 、 目 前 的 进度 、 预 计 的 完成 时 间 等 。 

在 计算 结束 、 结 果 收 集 完成 后 ,DDGrid 会 将 有 效 的 任务 计算 结果 返回 给 Grid Portal, 
用 户 可 以 从 自己 的 浏览 器 上 看 到 任务 对 应 的 有 效 计算 结果 已 经 生成 ,并 且 可 以 从 网 格 下 载 。 

在 系统 的 设计 和 实现 中 ,我 们 充分 考虑 了 数据 安全 性 问题 。 因 此 ,在 结果 传递 过 程 中 ， 
我 们 会 首先 将 结果 文件 加 密 ,然后 提供 加 密 后 的 结果 给 用 户 下 载 , 这 样 即 使 有 人 恶意 地 对 结 
果 文 件 进行 拦截 ,也 会 因为 没有 密 钥 而 很 难得 到 明文 表示 ,增强 了 系统 的 安全 性 。 用 户 将 计 
算 结果 下 载 到 本 地 后 ,可 以 使 用 自己 的 密 钥 将 结果 文件 解密 ,得 到 计算 结果 的 正确 表示 
形式 。 
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在 网 格 计算 中 ,网 格 结 点 之 间 的 通信 量 是 影响 网 格 系统 性 能 的 一 个 很 重要 的 因素 。 如 
果 网 格 结 点 间 存 在 频繁 ,大 规模 的 数据 传输 ,这 将 占用 大 量 的 带宽 ,从 而 大 大 降低 网 格 系统 
的 整体 性 能 。 因 此 ,DDGrid 设计 过 程 中 采用 了 几 种 方法 来 优化 网 格 通信 。 首 先 ,限制 合法 
用 户 上 传 文件 的 大 小 ,规定 用 户 上 传 的 任务 文件 的 大 小 不 能 大 于 1MB。 其 次 ,采取 数据 加 
密 压缩 的 方式 进行 结果 回 传 ,用 户 下 载 完 计 算 结 果 后 ,必须 首先 进行 解压 缩 和 解密 才能 使 
JH. 再次, 要求 DDGrid 上 运行 的 计算 任务 具有 高 并 行 性 各 子 任务 之 间 通 信 量 尽量 少 的 特 
点 。 因 此 在 选择 应 用 实例 时 ,选取 了 蛋白质 分 子 对 接 DOCK 实验 ,因为 DOCK 实验 高 度 并 
行 ,各 子 任务 之 间 不 存在 相互 通信 ,非常 适合 于 在 网 格 环境 运行 。 

2. 网 格 任务 调度 

如 何在 网 格 环境 中 进行 高 效 的 任务 调度 ,使 得 任务 可 以 利用 最 少 的 资源 .能够 在 最 短 的 
时 间 内 完成 计算 ,并且 这 一 过 程 对 用 户 完 全 透明 ,同时 还 允许 应 用 层 的 用 户 可 以 删除 自己 已 
提交 的 任务 ,这些 都 是 我 们 在 设计 网 格 任务 调度 方法 时 需要 考虑 的 因素 。 

在 处 理 用 户 任 务 时 ,充分 利用 了 本 书 前 几 章 在 网 格 资源 管理 和 资源 调度 方面 的 研究 , 例 
如 基于 资源 服务 匹配 的 GChord 算法 、 基 于 多 代理 协同 计算 的 rwAgent 算法 等 。 下 面 将 对 
DDGrid 任务 调度 策略 进行 详细 介绍 。 

1) 并 行 任务 划分 方法 

如 前 所 述 ,药物 筛选 领域 的 蛋白 质 分 子 对 接 实 验 ,又 称 DOCK 实验 ,目的 是 识别 药物 划 
点 。 将 一 个 蛋白 质 大 分 子 和 数据 库 中 的 样本 分 子 进 行 结构 匹配 ,计算 出 样本 分 子 和 大 分 子 
的 某 一 空间 位 置 上 的 匹配 度 ,如果 匹配 度 较 高 , 则 该 位 置 就 有 可 能 是 一 个 药物 靶 点 。 一 般 在 
进行 DOCK 实验 时 ,用 户 往往 上 传 一 个 大 的 蛋白 质 分 子 (病毒 分 子 ) ,选择 样本 数据 库 中 一 
定数 量 的 样本 分 子 ,例如 100 个 样本 分 子 , 然 后 将 病毒 分 子 和 样本 分 子 进行 结构 匹配 ,以 此 
来 发 现 具 有 药理 活性 的 分 子 和 药物 靶 点 。DOCK 计算 结束 后 ,用 户 将 得 到 一 个 结果 列 
表 , 此 列表 将 病毒 分 子 和 100 个 样本 分 子 的 匹配 程度 按照 从 高 到 低 的 顺序 排列 。 排 在 最 前 
面 的 样本 分 子 最 具有 成 为 杀 死 此 种 病毒 的 药物 的 可 能 性 ,而 对 应 的 匹配 位 置 就 是 一 个 药物 

根据 DOCK 计算 的 特征 ,在 设计 任务 调度 策略 之 前 , 先 设计 了 将 任务 划分 成 多 个 子 任 
务 的 并 行 任务 分 割 方 法 ,建立 了 子 任务 池 。 图 7-30 为 DDGrid 子 任务 池 的 示意 图 。 


A_Specs_51_| A_Specs_52_ A. Specs. 100. |A ACD. 201. |A ACD 202 | A. ACD 250 | 
2005030 2005030 M 2005030 2005030 2005030 - 2005030 
8102132 8102132 8102132 8202132 8202132 8202132 

E730 子 任务 池 


在 建立 子 任务 池 的 过 程 中 ,以 样本 分 子 的 个 数 作为 划分 依据 ,也 就 是 说 ,对 于 一 个 
DOCK 任务 ,用户 选择 了 多 少 个 样本 分 子 ,那么 该 任务 就 将 被 划分 成 多 少 个 子 任 务 。 例 如 ， 
用 户 A 选择 将 大 的 病毒 分 子 分 别 和 Specs 数据 库 中 标号 在 [51,100] 区 间 内 的 50 个 样本 分 
T ACD 数据 库 中 标号 在 [201,250] 区 间 内 的 50 个 样本 分 子 进行 对 接 , 那 么 ,该 用 户 上 传 的 
任务 将 被 网 格 系统 划分 成 100 个 子 任务 。 这 100 个 子 任务 分 别 被 赋予 不 同 的 标记 后 ,放置 
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在 子 任务 池 中 ,等 待 调度 算法 分 配 相应 的 网 格 资源 ,进行 计算 。 在 对 子 任务 进行 标记 时 ,使 
用 “二 用 户 名 _ 样 本 数据 库 名 _ 样 本 数据 库 中 的 分 子 标号 _ 任 务 上 传 时 间 二 ”作为 子 任务 在 任 
务 池 中 的 唯一 标记 。 

2) 任务 调度 策略 

相对 于 大 的 病毒 分 子 而 言 ,样本 分 子 很 小 ,用 来 表示 样本 分 子 的 三 维 空间 结构 的 矩阵 大 
小 基本 相同 ,因此 在 进行 DOCK 计算 过 程 中 ,每 个 样本 分 子 所 需 的 计算 量 基 本 相同 。 基 于 
此 ,我 们 设 定 每 个 样本 分 子 需 要 相同 的 网 格 计算 资源 。 虽 然 这 会 存在 一 定 的 误差 ,但 是 该 误 
差 对 于 整个 网 格 系统 的 调度 性 能 影响 其 微 ,可 以 忽略 不 计 。 那 么 ,从 用 来 描述 任务 池 的 任务 
信息 表 中 ,以 获得 各 个 子 任务 的 名 称 、 计 算 内 容 等 基本 信息 之 外 ,还 能 够 估算 出 计算 此 任务 
所 需 的 计算 资源 数量 。 

此 外 ,建立 了 超级 结 点 信息 表 和 客户 结 点 信息 表 , 分 别 用 来 描述 各 个 网 格 结 点 的 详细 信 
E. 例如, 结 点 所 在 的 主机 名 ,操作 系统 版 本 、 当 前 可 用 的 空闲 计算 资源 数量 等 信息 。 

DDGrid 的 调度 策略 采用 了 和 rwAgent 算法 相似 的 设计 思想 ,资源 的 调度 由 多 个 代理 
完成 。 每 个 网 格 计算 结 点 都 具有 自己 的 代理 ,该 代理 知晓 结 点 的 当前 状态 信息 。 代 理 定期 
查看 任务 池 的 状态 ,如 果 任务 池 中 有 等 待 处 理 的 子 任务 , 则 代理 会 将 自身 的 可 用 资源 和 子 任 
务 的 计算 量 进行 比较 ,如 果 自 身 的 空闲 资源 可 以 满足 一 定数 量 的 子 任务 的 计算 要 求 , 则 代理 
将 对 应 的 子 任务 取 走 ,并 将 其 加 入 到 对 应 的 计算 结 点 的 排队 对 列 中 等 待 计算 。 子 任务 在 计 
算 结 点 上 进行 计算 的 过 程 中 ,如 果 计 算 结 点 的 资源 繁忙 ,该 子 任务 将 暂停 ,让 出 计算 资源 ,等 
到 有 足够 的 空闲 资源 时 再 重新 启动 该 进程 。 

在 实现 的 过 程 中 ,设计 了 多 个 数据 库 表格 ,利用 对 数据 库 的 访问 ,来 实现 代理 对 资源 信 
息 的 维护 .资源 调度 过 程 中 的 资源 匹配 、 任 务 的 计算 状态 维护 .计算 结果 收集 等 一 系列 相关 
功能 。 图 7-31 所 示 给 出 了 资源 管理 和 任务 调度 相关 部 分 的 数据 库 设 计 。 

在 进行 任务 调度 时 ,代理 会 定期 查看 子 任务 池 中 是 否 存在 等 待 调度 的 子 任务 ,对 应 子 任 
务 状态 表 中 的 “处 理 状态 "项, 如果 存在 值 为 0 的 子 任务 , 则 表示 有 子 任务 等 待 调度 。 代 理 从 
超级 结 点 信息 表 中 提取 “可 利用 资源 ” 表 项 的 值 ,判断 该 值 是 否 大 于 计算 单位 子 任务 所 需 的 
计算 资源 数 。 在 大 于 的 情况 下 ,从 子 任务 池 中 第 一 个 尚未 被 分 配 的 子 任务 开始 ,提取 个 子 
任务 ,分 配给 此 超级 结 点 ,其 中 

n — | value( 可 利用 资源 )/ 单位 子 任务 所 需 计算 资源 数 | 
相应 地 ,修改 子 任务 状态 表 中 的 “处 理 状态 ”" 表 项 的 值 为 “1”。 

在 子 任务 分 配给 超级 结 点 后 ,客户 结 点 的 代理 会 以 同样 的 工作 原理 进行 子 任务 二 次 分 
配 , 即 定期 查询 超级 结 点 中 是 否 存 在 等 待 调度 的 子 任务 .然后 根据 客户 结 点 当前 可 利用 资源 
的 情况 判断 可 以 承担 的 子 任务 计算 量 。 

超级 结 点 信息 表 和 客户 结 点 信息 表 中 的 “可 利用 资源 ”项 的 值 会 定期 更 新 ,以 此 来 达到 
保证 反映 结 点 的 实时 工作 负载 情况 ,实现 网 格 系统 的 动态 资源 调度 。 频 繁 地 更 新 会 浪费 网 
络 带宽 和 系统 资源 ,影响 计算 速度 。 但 是 过 慢 的 更 新 又 将 引起 资源 信息 的 过 时 。 所 以 ,在 
DDGrid 的 设计 中 ,选择 使 用 定时 更 新 和 事件 触发 两 种 方式 进行 信息 表 的 更 新 。 例 如 ,在 上 
传 计算 结果 查询 子 任务 池 等 系统 事情 发 生 时 ,将 触发 对 信息 表 的 维护 ,以 此 来 保证 网 格 信 
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子 任务 池 
| [mema] LL 
任务 状态 表 CURTIS MY 子 任务 名 称 | | 1 计算 中 
pren 2 结果 已 j 
[ZI 处 理 状态 H 2 结果 已 返回 
| wont | SS | d: 
| 提交 时 间 | 对 应 子 任务 | 
结果 返回 时 间 [| 
Oe 
1 计算 中 MA ABR 
2 结果 已 返回 结果 下 载 


客户 结 点 信息 表 
客户 结 点 mr  - 
操作 系统 版 
or 了 任务 名 称 
可 利用 资源 ane 


图 7-31 数据 库 设计 示意 图 


息 的 实时 性 。 实 现 过 程 中 ,采用 push 和 pull 两 种 方式 来 更 新 信息 表 。 

网 格 系统 的 广 域 性 ,使 得 应 用 程序 的 执行 情况 实现 难以 预测 。 为 了 保证 整个 任务 的 计 
算 周期 ,防止 因为 某 个 网 格 结 点 的 崩溃 造成 结果 丢失 、 任 务 计算 时 间 过 长 等 情况 的 发 生 , 在 
设计 过 程 中 ,我 们 采用 了 基于 对 等 计算 的 任务 复制 策略 ,确保 用 户 可 以 在 短 时 间 内 获得 正确 
的 计算 结果 。 具 体 设计 思路 为 ,如 果 某 个 任务 的 计算 结果 在 一 定时 间 内 没有 返回 ,系统 会 将 
该 任务 的 状态 重新 置 为 "0”, 也 就 是 把 此 任务 作为 新 的 任务 进行 重新 调度 。 那 么 ,在 一 定 的 
时 间 内 ,系统 中 可 能 存在 针对 该 任务 的 多 个 调度 结果 ,. 即 由 调度 器 将 同一 个 任务 映射 到 不 同 
的 资源 域 进行 计算 ,那么 ,在 有 效 时 间 内 ,把 首先 返回 的 计算 结果 作为 此 任务 的 有 效 计算 结 
果 , 而 将 多 个 后 续 返 回 的 计算 结果 丢弃 。 


7.4.5 应 用 实例 


图 7-32 是 DDGrid 的 运行 界面 。 目 前 ,用 户 可 以 访问 DDGrid 的 Web 站 点 进行 蛋白 质 
分 子 DOCK 实验 ,我 们 仍然 努力 对 它 不 断 进行 完善 ,提供 更 好 更 多 的 服务 ,希望 在 不 久 的 将 
来 它 能 成 为 医药 研发 领域 用 户 的 一 个 常用 的 计算 机 虚拟 筛选 工具 。 

实验 使 用 新 药 研发 网 格 进行 蛋白 质 分 子 对 接 实验 ,其 中 使 用 了 Specs, ACD, CNPP, 
NCBI 和 ACD-SC 等 商业 分 子 数据 库 , 现 阶段 这 些 数据 库 由 新 药 研发 网 格 免费 提供 给 用 户 
使 用 。 
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图 7-32 DDGrid 的 运行 界面 快照 


7.5 本 章 小 结 


7.1 节 针 对 为 解决 任务 并 行 度 高 的 计算 密集 型 科学 应 用 而 设计 的 专用 计算 网 格 提出 了 
基于 树 匹配 的 网 格 资源 调度 算法 nTreeMatch。 算 法 充分 利用 了 网 格 资源 信息 有 向 图 表示 
方法 和 网 格 任 务 DAG 表示 方法 之 间 的 相似 性 ,将 网 格 Overlay Network 拓扑 的 最 小 生成 树 
和 nn 又 任务 树 进行 匹配 ,以 实现 网 格 资源 的 实时 调度 。 提 供 者 的 实时 资源 属性 ,进行 动态 的 
网 格 任务 调度 ,可 以 获得 较 好 的 负载 均衡 效果 。 在 构造 Overlay 时 借助 了 网 络 临 近 原 则 同 
时 算法 充分 利用 了 Overlay 网 络 拓扑 提供 的 路 由 信息 ,使 用 网 络 邻 近 原 则 使 得 Chord 环 上 
的 邻居 结 点 同时 为 物理 网 络 上 邻近 的 结 点 ,从 而 以 轻 量 附加 开销 来 有 效 减少 Overlay 层 上 
的 路 由 跳 数 ,使 得 Overlay 层 上 的 路 由 跳 数 尽量 接近 TP 层 上 的 路 由 跳 数 ,降低 RDP ,并 最 终 
达到 提高 算法 效率 的 目的 。 大 量 的 对 比 实验 结果 表明 ,算法 可 以 有 效 地 对 网 格 并 行 任务 进 
行动 态 调度 ,提供 较 高 的 服务 质量 。 

7.2 节 介绍 了 基于 结构 化 PZP 的 网 格 资源 管理 和 调度 算法 GChord ,该 算法 的 特点 是 : 
具有 自 组 织 、 可 扩展 和 自 适应 等 优点 ; 通过 资源 发 现 的 方式 进行 网 格 任务 的 动态 调度 ,解决 
了 采用 信息 收集 方式 进行 资源 调度 的 方法 存在 的 信息 过 时 数据 不 一 致 的 问题 ; GChord 对 
Chord 路 由 算法 进行 扩充 ,使 扩充 后 的 算法 能 更 加 适用 于 网 格 资源 的 动态 性 ; 算法 实现 过 
程 中 主要 解决 了 网 格 Overlay 网 络 的 拓扑 组 织 形式 、 资 源 的 发 布 方法 、 资 源 的 更 新 、 资 源 发 
现 以 及 路 由 算法 等 问题 ; 通过 大 量 的 实验 证 明了 该 方法 的 有 效 性 。 

多 代理 技术 已 经 成 功 地 应 用 于 很 多 研究 领域 ,通过 多 代理 之 间 的 协作 ,使 得 在 具有 不 完 
全 知识 的 情况 下 处 理 问 题 成 为 可 能 。 多 代理 的 分 布 性 和 协同 性 ,适合 解决 动态 的 、 自 治 的 网 
格 环境 中 的 问题 。7. 3 节 利 用 多 代理 的 自学 习 和 自 组 织 特性 ,设计 了 基于 多 代理 协同 计算 
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的 网 格 资源 调度 算法 rwAgent, 通 过 多 代理 间 的 自 组 织 、 自 学 习 和 调度 管理 ,很 好 地 解决 了 
网 格 资源 的 动态 调度 问题 ,同时 可 以 获得 全 局 的 负载 均衡 状态 。 通 过 建立 数学 模型 对 算法 


进行 了 理论 分 析 ,最 后 使 用 实验 验证 了 对 算法 设计 的 可 行 性 。 


7.4 节 介绍 了 DDGrid ,新 药 研 发 网 格 的 框架 结构 以 及 系统 平台 的 实现 。 它 的 实现 充分 


利用 了 本 章 的 研究 成 果 。DDGrid 接受 用 户 从 Web 上 提交 的 药物 筛选 计算 任务 ,自动 取出 
和 计算 相关 的 数据 项 ,进行 并 行 任务 划分 ,然后 将 这 些 计 算 任 务 映射 到 网 格 系统 的 各 计算 结 
点 中 。DDGrid 利用 中 国 国 家 网 格 各 计算 中 心 的 集群 提供 的 空闲 计算 力 , 进 行 虚拟 药物 筛 
选 实验 计算 ,在 计算 结束 后 ,DDGrid 会 通知 用 户 通过 Grid Portal 下 载 计算 结果 。 用 户 只 需 
提交 药物 筛选 所 需 的 原始 文件 ,DDGrid 便 可 自动 地 进行 处 理 , 此 过 程 对 于 用 户 完全 透明 。 
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云 计 算 文 件 系统 设计 与 实现 mss 


8.1 引言 


8.1.1 云 计算 概述 


目前 , 云 计 算是 个 很 热 的 话题 ,可 以 说 人 类 将 要 进入 云 计 算 的 时 代 。 人 
们 如 此 重视 云 计 算 的 原因 ,一 方面 是 云 计 算 这 种 商业 模式 孕育 着 巨大 的 商业 
机 遇 , 另 一 方面 , 云 计算 作为 互联 网 资源 新 的 配置 方式 , 它 将 改变 整个 互联 网 
的 价值 链 。 云 计算 是 网 格 计算 (Grid Computing) ,分布 式 计算 (Distributed 
Computing) ,并行 计算 (Parallel Computing) 效用 计算 (Utility Computing) 
网 络 存 储 (Network Storage Technologies) .虚拟 化 (Virtualization)、 负 载 均 
Hi (Load Balance) 等 传统 计算 机 技术 和 网 络 技术 发 展 融合 的 产物 。 云 计算 提 
供 无 所 不 在 、 无 时 不 在 的 互联 网 服务 , 它 将 彻底 改变 人 们 使 用 硬件 、 软 件数 
据 的 方式 ,使 人 们 摆脱 传统 的 信息 技术 使 用 方式 的 束缚 ,能 够 更 加 关注 信息 
和 内 容 的 本 身 ,而 不 是 其 他 。 

云 计算 的 出 现 将 改变 人 们 对 IT 系统 (包括 硬件 和 软件 ) 的 使 用 方式 。 第 
一 ,用 户 没有 必要 购买 安装、 维护 自己 的 IT 设备 ,只 要 通过 网 络 连接 就 可 以 
租用 网 络 上 提供 的 应 用 程序 .计算 资源 和 存储 资源 服务 。 第 二 , 云 计 算 将 改 
变 人 们 使 用 软件 的 方式 ,用 户 现在 安装 在 个 人 电脑 上 的 所 有 软件 都 可 以 通过 
网 络 方式 获得 在 线 软件 服务 ,比如 : 个 人 可 以 通过 网 络 租用 Office 软件 服务 ， 
企业 可 以 通过 网 络 租用 CRM 软件 服务 。 第 三 , 云 计 算 将 改变 人 们 信息 访问 
的 方式 ,用户 通过 终端 就 可 以 访问 “ 云 ” 中 的 信息 ,等 等 。 

云 计算 目前 还 没有 明确 的 定义 ,Wikipedia 关于 云 计算 的 定义 为 “ 云 计 算 
是 网 格 计算 下 的 一 种 新 的 标签 , 它 使 用 公用 计算 或 其 他 方法 来 共享 计算 资 
源 。 云 计算 是 依靠 本 机 服务 器 或 个 人 设备 来 处 理 用户 应 用 程序 之 外 的 另 一 
种 选择 ”。News Blog 认为 “ 云 计算 是 一 种 将 硬件 与 软件 外 包 给 因特网 服务 
提供 商 的 概念 ”。 
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云 计算 有 狭义 云 计 算 和 广义 云 计算 之 分 。 狭 义 云 计 算 指 的 是 IT 基础 设施 的 交付 和 使 
用 模式 , 即 通过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 的 资源 (硬件 .平台 、 软 件 )。“ 云 ”中 的 资 
源 在 使 用 者 看 来 是 可 以 无 限 扩展 的 ,并 且 可 以 随时 获取 , 按 需 使 用 ,随时 扩展 , 按 使 用 付费 。 
广义 云 计算 指 的 是 服务 的 交付 和 使 用 模式 , 即 通 过 网 络 以 按 需 、 易 扩展 的 方式 获得 所 需 的 服 
务 。 这 种 服务 可 以 是 YT 和 软件 .互联 网 相关 的 ,也 可 以 是 任意 其 他 的 服务 。 


8.1.2 云 计算 关键 技术 

云 计算 的 主要 关键 技术 如 下 : 

1. 虚拟 化 (Virtualization) 

虚拟 化 是 云 计算 的 核心 特征 之 一 。 虚 拟 化 是 指 计算 机 元 件 在 虚拟 的 基础 上 而 不 是 真实 
的 基础 上 运行 。 虚 拟 化 技术 可 以 扩大 硬件 的 容量 ,简化 软件 的 重新 配置 过 程 。CPU 的 虚拟 
化 技术 可 以 单 CPU 模拟 多 CPU 并 行 ,允许 一 个 平台 同时 运行 多 个 操作 系统 ,并 且 应 用 程 
序 都 可 以 在 相互 独立 的 空间 内 运行 而 互 不 影响 ,从 而 显著 提高 计算 机 的 工作 效率 。 

2. laaS/PaaS/SaaS 服务 模式 

云 计算 中 用 户 所 需要 的 任何 东西 都 以 服务 形式 体现 ,服务 类 型 包括 计算 服务 、 网 络 服 
务 软件 服务 .平台 服务 .存储 服务 等 。 

TaaS 是 将 基础 设施 (主要 为 计算 资源 、 网 络 资源 和 存储 资源 ) 作 为 服务 出 租 , PaaS 是 
IaaS 加 上 一 个 用 于 给 定 应 用 的 定制 软件 栈 , 可 描述 为 一 个 完整 的 虚拟 平台 , 它 包 括 操作 系 
统 和 围绕 特定 应 用 的 必需 的 服务 。SaaS 是 一 种 基于 互联 网 提供 软件 服务 的 应 用 模式 ,是 管 
理 软件 的 发 展 趋势 ,也 是 云 计算 部 署 的 最 佳 实践 。 

3. 并 行 计 算 和 并 行 算法 

并 行 计 算 (Parallel Computing) 是 指 同 时 使 用 多 种 计算 资源 解决 计算 问题 的 过 程 。 为 
执行 并 行 计算 ,计算 资源 应 包括 一 台 配 有 多 处 理 机 (并 行 处 理 ) 的 计算 机 ,一 个 与 网 络 相 连 的 
计算 机 专 有 编号 ,或 者 两 者 结合 使 用 。 并 行 计算 的 主要 目的 是 快速 解决 大 型 且 复 杂 的 计算 
问题 。 此 外 还 包括 利用 非 本 地 资源 ,节约 成 本 ,即使 用 多 个 “廉价 ”计算 资源 取代 大 型 计算 
机 ,同时 克服 单个 计算 机 上 存在 的 存储 器 限制 。 

并 行 计算 科学 中 主要 研究 的 是 空间 上 的 并 行 问 题 。 从 程序 和 算法 设计 人 员 的 角度 来 
看 ,并 行 计算 又 可 分 为 数据 并 行 和 任务 并 行 。 一 般 来 说 ,因为 数据 并 行 主要 是 将 一 个 大 任务 
化 解 成 相同 的 各 个 子 任务 , 比 任务 并 行 要 容易 处 理 。 

空间 上 的 并 行 导致 了 两 类 并 行 机 的 产生 ,按照 Flynn 的 说 法 分 为 : 单 指令 流 多 数据 流 
(SIMD) 和 多 指令 流 多 数据 流 (MIMD)。 常 用 的 串 行 机 也 叫做 单 指令 流 单数 据 流 (SISD)。 
MIMD 类 的 机 器 又 可 分 为 以 下 常见 的 五 类 : 并 行 向 量 处 理 机 (PVP) 、 对 称 多 处 理 机 (SMP) 、 
大 规模 并 行 处 理 机 (MPP) ,工作 站 机 群 (COW) ,分 布 式 共享 存储 处 理 机 (DSM) 。 

4. 面向 服务 的 体系 结构 

SOA(Service-Oriented Architecture, 面 向 服务 架构 ) 是 指 为 了 解决 在 Internet 环境 下 
业务 集成 的 需要 ,通过 连接 能 完成 特定 任务 的 独立 功能 实体 实现 的 一 种 软件 系统 架构 。 
SOA 是 一 个 组 件 模型 , 它 将 应 用 程序 的 不 同 功能 单元 ( 称 为 服务 ) 通 过 这 些 服 务 之 间 定 义 良 
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好 的 接口 和 契约 联系 起 来 。 接 口 是 采 用 中 立 的 方式 进行 定义 的 , 它 应 该 独立 于 实现 服务 的 
硬件 平台 ,操作 系统 和 编程 语言 。 这 使 得 构建 在 各 种 这 样 的 系统 中 的 服务 可 以 以 一 种 统一 
和 通用 的 方式 进行 交互 。 概 括 地 说 ,SOA 具有 以 下 特点 : 松 耦 合 性 、 位 置 透明 和 协议 的 独 
立 性 。 松 耦合 性 要 求 SOA 架构 中 的 不 同 服务 之 间 应 该 保持 一 种 松 耦 合 的 关系 ,也 就 是 应 
该 保持 一 种 相对 独立 无 依赖 的 关系 ; 位 置 透明 性 要 求 SOA 系统 中 的 所 有 服务 对 于 它们 的 
调用 者 来 说 都 是 位 置 透明 的 ,也 就 是 说 每 个 服务 的 调用 者 只 需要 知道 他 们 调用 的 是 哪 一 个 
服务 ,但 并 不 需要 知道 所 调用 服务 的 物理 位 置 在 哪里 ; 而 协议 独立 性 要 求 每 一 个 服务 都 可 
以 通过 不 同 的 协议 来 调用 。 这 样 基于 SOA 建立 的 系统 可 以 确保 整个 系统 的 松散 耦合 和 灵 
活性 ,这 将 为 企业 未 来 的 业务 需求 扩张 的 打下 良好 基础 ,也 就 是 说 ,SOA 可 以 提供 很 好 的 业 
务 灵 活性 。 可 以 迅速 有 效 地 响应 业务 需求 的 变化 。 

在 SOA 出 现 之 前 ,软件 包 通常 被 编写 为 独立 的 软件 , 即 在 一 个 完整 的 软件 包 中 将 许多 
应 用 程序 功能 整合 在 一 起 。 该 种 开发 模式 将 其 业务 逻辑 和 IT 实现 拥 绑 在 一 起 来 实现 , 当 
业务 需求 发 生变 化 时 修改 代码 不 可 避免 ,这 会 造成 系统 灵活 性 差 , 并 增加 维护 系统 的 成 本 ， 
使 重用 应 用 程序 变 得 困难 。SOA 旨 在 将 单个 应 用 程序 功能 彼此 分 开 , 以 便 这 些 功 能 可 以 单 
独 用 作 单 个 的 应 用 程序 功能 或 “组 件 ”。 这 些 组 件 可 以 用 于 在 企业 内 部 创建 各 种 其 他 的 应 用 
程序 ,或 者 对 外 公开 供 其 他 应 用 程序 使 用 。SOA 强调 重用 ,但 是 相对 于 传统 的 代码 重用 、 对 
象 重用 和 构件 重用 ,SOA 的 重用 粒度 更 粗 。SOA 的 重用 在 于 业务 级 的 应 用 , 即 服务 的 重 
JH. SOA 架构 的 主要 优势 有 : 

(1) 减少 企业 IT 支出 。SOA 架构 实现 了 各 系统 服务 间 的 松散 结合 ,这 种 方法 降低 新 
业务 整合 的 复杂 度 , 从 而 减少 IT 开发 成 本 和 开发 时 间 。 

(2) 提高 资产 再 利用 。SOA 建设 属于 IT 基础 设施 方面 的 范畴 ,SOA 架构 可 实现 对 现 
有 系统 (服务 ) 的 再 利用 ,并 且 SOA 的 经 济 性 将 随 公司 创造 并 再 重复 利用 的 服务 数量 的 增 
加 而 增加 。 

(3) 降低 业务 风险 。SOA 的 IT 架构 可 以 更 快 、 更 好 地 适应 业务 的 变化 ,降低 业务 风 
险 ,并 且 提 供 业务 流程 的 整体 可 见 性 , 反 过 来 改进 业务 流程 ,降低 业务 风险 。 

SOA 是 一 种 架构 , 云 计算 是 基于 某 个 架构 之 上 的 结果 , 云 计算 有 很 多 方面 与 SOA 有 交 
叉 。SOA 治理 (也 称 为 服务 治理 ) , 指 的 是 保证 一 些 核心 功能 在 整个 生命 周期 的 开发 ,安全 、 
性 能 以 及 其 他 策略 上 的 一 致 。 随 着 云 计算 和 SOA 不 断 融 合 ,对 治理 策略 、 治 理 技术 的 需求 
日 益 迫 切 。 

5. 云 存储 

云 存储 是 在 云 计算 (Cloud Computing) 概 念 上 延伸 和 发 展 出 来 的 一 个 新 的 概念 , 当 云 计 
算 系统 运算 和 处 理 的 核心 是 大 量 数据 的 存储 和 管理 时 , 云 计 算 系 统 中 就 需要 配置 大 量 的 存 
储 设备 ,那么 云 计算 系统 就 转变 成 为 一 个 云 存储 系统 ,所 以 云 存 储 是 一 个 以 数据 存储 和 管理 
为 核心 的 云 计算 系统 。 

云 存储 中 的 存储 设备 数量 庞大 且 分 布 多 在 不 同 地 域 ,如 何 实现 不 同 厂商 、 不 同型 号 甚至 
于 不 同类 型 (如 FC 存储 和 IP 存储 ) 的 多 台 设 备 之 间 的 逻辑 卷 管理 .存储 虚拟 化 管理 和 多 链 
路 宛 余 管理 将 会 是 一 个 巨大 的 难题 ,这 个 问题 得 不 到 解决 ,存储 设备 就 会 是 整个 云 存 储 系统 
的 性 能 瓶颈 ,结构 上 也 无 法 形成 一 个 整体 ,而 且 还 会 带 来 后 期 容量 和 性 能 扩展 难 等 问题 。 

云 存储 中 的 另外 一 个 问题 就 是 存储 设备 运营 管理 问题 。 对 于 云 存储 的 运营 单位 来 讲 ， 
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必须 要 通过 切实 可 行 和 有 效 的 手段 来 解决 集中 管理 难 、 状 态 监 控 难 、 故 障 维护 难 、 人 力 成 本 
高 等 问题 。 因 此 , 云 存 储 必 须要 具有 一 个 高 效 的 类 似 于 网 络 管理 软件 一 样 的 集中 管理 平台 ， 
可 实现 云 存 储 系统 中 设 有 存储 设备 、 服 务 器 和 网 络 设备 的 集中 管理 与 状态 监控 。 

6. 云 计 算 服 务 与 业务 流程 管理 的 融合 

BPM(Business Process Management, 业 务 流 程 管理 ) 是 利用 工作 流 技术 ,从 业务 流程 
的 角度 对 企业 进行 全 方位 的 管理 ,将 业务 逻辑 和 业务 执行 分 开 ,使 信息 系统 能 够 快速 地 适应 
流程 的 变化 ,可 减少 业务 需求 与 IT 系统 间 的 失 配 ,降低 运营 成 本 ,提高 IT 系统 的 机 动 性 和 
灵活 性 ; 也 正 是 由 于 业务 逻辑 与 代码 实现 的 分 离 , 从 而 实现 对 大 部 分 环境 变化 可 通过 修改 
规则 库 即 可 满足 ,提高 了 程序 的 柔性 。 

在 云 计 算 中 ,一切 皆 为 服务 ,服务 是 云 计算 平台 中 的 接口 ,采用 云 计算 平台 的 服务 架构 
将 众多 企业 的 业务 功能 均 以 服务 的 形式 发 布 出 来 ,而 云 计算 中 服务 具有 标准 接口 以 及 松散 
耦合 等 特点 ,这 使 得 企业 的 BPM 能 够 方便 地 通过 云 计 算 服 务 的 组 合 来 灵活 构建 自己 企业 
的 业务 流程 以 适应 新 的 业务 需求 。BPM 和 云 计算 服 务 两 者 是 相辅相成 的 ,没有 BPM 对 流 
程 进行 深入 分 析 和 管理 ,就 不 会 真正 知道 应 该 整合 哪些 服务 以 方便 重用 ,此 外 ,BPM 可 对 业 
务 流程 进行 深入 分 析 从 而 更 好 地 改善 企业 的 业务 流程 ,提高 效率 。 
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8.2.1 云 存 储 系统 架构 


云 存 储 是 指 通 过 网 格 技术 、 集 群 (Cluster) 应 用 或 分 布 式 文件 系统 等 功能 ,将 网 络 中 大 
量 各 种 不 同类 型 的 存储 设备 通过 应 用 软件 集合 起 来 协同 工作 ,共同 对 外 提供 数据 存储 和 业 
务 访问 功能 的 一 个 服务 系统 。 

与 传统 的 存储 设备 相 比 , 云 存 储 不 仅仅 是 一 个 硬件 ,而 是 一 个 网 络 设备 .存储 设备 .服务 
器 .应 用 软件 .公用 访问 接口 . 接 入 网 和 客户 端 程序 等 多 个 部 分 组 成 的 复杂 系统 。 各 部 分 以 
存储 设备 为 核心 ,通过 应 用 软件 来 对 外 提供 数据 存储 和 业务 访问 服务 。 云 存储 系统 的 结构 
模型 由 四 层 组 成 四 ,如 图 8-1 所 示 。 

1. 存储 层 

存储 层 是 云 存 储 最 基础 的 部 分 。 存 储 设备 可 以 是 FC 光纤 通道 存储 设备 ,可 以 是 NAS 
和 iSCSI 等 IP 存储 设备 ,也 可 以 是 SCSI 或 SAS 等 DAS 存储 设备 。 云 存储 中 的 存储 设备 
往往 数量 庞大 且 分 布 于 不 同 地 域 ,彼此 之 间 通 过 广域网 .互联 网 或 者 FC 光纤 通道 网 络 连接 
在 一 起 。 

存储 设备 之 上 是 一 个 统一 存储 设备 管理 系统 ,可 以 实现 存储 设备 的 逻辑 虚拟 化 管理 ,多 
链 路 宛 余 管 理 ,以 及 硬件 设备 的 状态 监控 和 故障 维护 。 

2. 基础 管理 层 

基础 管理 层 是 云 存储 最 核心 的 部 分 ,也 是 云 存储 中 最 难以 实现 的 部 分 。 基 础 管理 层 通 
过 集群 .分 布 式 文件 系统 和 网 格 计算 等 技术 ,实现 云 存 储 中 多 个 存储 设备 之 间 的 协同 工作 ， 
使 多 个 的 存储 设备 可 以 对 外 提供 同一 种 服务 ,并 提供 更 大 、 更 强 、 更 好 的 数据 访问 性 能 。 
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CDN 内 容 分 发 系统 .数据 加 密 技 术 保 证 云 存储 中 的 数据 不 会 被 未 授权 的 用 户 所 访问 ， 
同时 ,通过 各 种 数据 备份 和 容 灾 技术 与 措施 可 以 保证 云 存 储 中 的 数据 不 会 丢失 ,保证 云 存 储 
自身 的 安全 和 稳定 。 

3. 应 用 接口 层 

应 用 接口 层 是 云 存储 最 灵活 多 变 的 部 分 。 不 同 的 云 存 储 运营 单位 可 以 根据 实际 业务 类 
型 ,开发 不 同 的 应 用 服务 接口 ,提供 不 同 的 应 用 服务 。 比 如 视频 监控 应 用 平台 、IPTV 和 视 
频 点 播 应 用 平台 、 网 络 硬 盘 引 用 平台 ,远程 数据 备份 应 用 平台 等 。 

4. 访问 层 

任何 一 个 授权 用 户 都 可 以 通过 标准 的 公用 应 用 接口 登录 云 存储 系统 ,享受 云 存储 服务 。 
云 存储 运营 单位 不 同 , 云 存储 提供 的 访问 类 型 和 访问 手段 也 不 同 。 


8.2.2 云 存储 的 优势 


与 传统 的 购买 存储 设备 和 部 署 存储 软件 相 比 , 云 存储 方式 存在 以 下 优点 2 : 

1. 成 本 低 、 见 效 快 

传统 的 购买 存储 设备 或 软件 定制 方式 下 ,企业 通常 需要 投入 大 量 资金 购置 硬件 设备 、 措 
建 平台 。 在 云 存储 方式 下 ,企业 除了 配置 必要 的 终端 设备 接收 存储 服务 外 ,不 需要 投入 额外 
的 资金 来 搭建 平台 。 企 业 只 需 按 用 户 数 分 期 租用 云 存储 服务 ,从 而 规避 了 一 次 性 投资 的 风 
险 ,降低 了 使 用 、 维 护 成 本 。 

2. 易于 管理 

在 传统 方式 下 ,企业 需要 配备 专业 的 IT 人 员 进 行 系统 的 维护 ,由 此 带 来 技术 和 资金 成 
本 。 云 存储 模式 下 ,维护 工作 以 及 系统 的 更 新 升级 都 由 云 存储 服务 提供 商 完成 ,企业 能 够 以 
最 低 的 成 本 享受 到 最 新 .最 专业 的 服务 。 存 储 的 管理 非常 复杂 ,不 同 存储 厂商 有 不 同 的 管理 
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界面 ,数据 中 心 人 员 经 常 需要 面 对 不 同 的 存储 产品 ,这 种 情况 下 ,了 解 每 个 存储 的 使 用 状况 
(容量 、 负 载 等 ) , 变 得 非常 复杂 。 对 云 存储 来 说 ,再 多 的 存储 服务 器 ,在 管理 人 员 眼 中 ,只 是 
一 台 存 储 , 管 理 人 员 只 要 在 整体 硬盘 容量 快 用 完 时 ,采购 服务 器 即 可 ,每 台 存 储 服务 器 的 使 
用 状况 ,都 可 以 在 一 个 管理 界面 上 看 到 。 

3. 方式 灵活 

传统 的 购买 和 定制 模式 下 ,一 旦 完成 资金 的 一 次 性 投入 ,系统 无 法 在 后 续 使 用 中 动态 调 
整 。 随 着 设备 的 更 新 换代 ,落后 的 硬件 平台 难以 处 置 ; 随 着 业务 需求 的 不 断 变化 ,软件 需要 
不 断 地 更 新 升级 甚至 重 构 来 与 之 相 适 应 ,导致 维护 成 本 高 昂 ,很 容易 发 展 到 不 可 控 的 程度 。 
还 有 ,传统 的 存储 系统 升级 时 ,需要 把 旧 的 存储 设备 文件 备份 出 来 后 ,停机 , 换 上 新 的 存储 设 
备 ,这 会 导致 服务 的 停止 。 

而 云 存储 方式 一 般 按照 客户 数 、 使 用 时 间 、 服 务 项 目 进行 收费 。 企 业 可 以 根据 业务 需求 
变化 、 人 员 增 减 、 资 金 承 受 能 力 , 随 时 调整 其 租用 服务 方式 ,真正 做 到 “ 按 需 使 用 ”"。 云 存储 并 
不 单独 依赖 一 台 存 储 服务 器 ,因此 存储 服务 器 硬件 的 更 新 、 升 级 并 不 会 影响 存储 服务 的 提 
供 , 系 统 会 将 旧 的 存储 服务 器 上 的 文件 迁移 到 别 的 存储 服务 器 ,等 新 的 存储 服务 器 上 线 后 ， 
文件 会 再 迁移 回来 ,升级 方便 。 

4. 可 靠 性 高 

很 多 种 原因 的 硬件 损坏 会 导致 服务 的 停止 ,例如 硬盘 主板. 电源、 网 卡 等 ,虽然 针对 这 
些 弱点 ,管理 人 员 可 以 找到 替代 方案 ,例如 建立 一 个 全 宛 余 的 环境 (电源 、 网 络 、 盘 阵 等 ) ,但 
是 这 样 的 成 本 太 高 而 且 工 作 非 常 繁复 。 

云 存储 透 过 将 文件 复制 并 且 存 在 不 同 的 服务 器 ,解决 了 这 个 潜在 的 硬件 损坏 的 难题 。 
云 存储 知道 文件 存放 的 位 置 ,在 硬件 发 生 损坏 时 ,系统 会 自动 将 读 写 指令 导向 存放 在 另 一 台 
存储 服务 器 上 的 文件 ,保持 服务 的 继续 。 

以 上 也 是 云 存储 会 受 欢迎 的 理由 ,是 用 户 面 对 呈 爆 炸 性 成 长 的 海量 数据 时 最 好 的 选择 。 


8.3. 云 计算 文件 系统 概述 


云 计算 中 的 文件 系统 主要 是 分 布 式 文件 系统 ,分 布 式 文件 系统 主要 分 布 在 多 个 计算 机 
结 点 上 ,每 个 结 点 只 会 直接 存 取 整 个 文件 系统 的 一 部 分 。 一 般 来 说 ,分 布 式 文件 系统 均 包括 
复制 和 容错 功能 ,从 而 保障 系统 在 某 些 结 点 出 错 的 情况 下 仍 能 够 继续 正常 工作 ,而 不 会 出 现 
数据 丢失 的 情况 。 

云 计算 的 分 布 式 文件 系统 目前 主要 有 GFS(Google File System) ,下 面 将 先 介绍 GFS, 
然后 介绍 Hadoop, 以 及 一 个 基于 云 计算 的 文件 系统 。 


8.3.1 GFS 


GFS 是 一 个 可 扩展 的 分 布 式 文件 系统 ,用 于 大 型 的 ,分 布 式 的 .对 大 量 数据 进行 访问 的 
应 用 。 它 可 运行 于 廉价 的 普通 硬件 上 ,并 提供 强大 的 容错 功能 。 它 可 以 给 大 量 的 用 户 提 供 
总 体 性 能 较 高 的 服务 号。 

GFS 与 以 往 的 文件 系统 的 不 同 在 于 : 
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(1) 允许 组 件 发 生 错 误 。 考 虑 到 分 布 式 文件 系统 是 由 很 多 存储 的 机 器 构成 ,而 这 些 机 
器 是 由 廉价 的 普通 部 件 组 成 并 被 大 量 的 客户 机 访问 。 组 件 的 数量 和 质量 使 得 一 些 机 器 随时 
都 有 可 能 无 法 工作 并 且 有 一 部 分 还 可 能 无 法 恢复 。 所 以 实时 地 监控 、 错 误 检测 、 容 错 、 自 动 
恢复 对 系统 来 说 必 不 可 少 。 

(2) 大 块 文件 和 小 块 文件 都 支持 。GFS 中 达 几 个 GB 的 文件 是 很 平常 的 。 每 个 文件 通 
常 包含 很 多 应 用 对 象 。 当 经 常 要 处 理 快速 增长 的 ,包含 数 以 万 计 的 对 象 \ 长 度 达 TB 的 数据 
集 时 ,将 很 难 管理 成 千 上 万 的 KB 规模 的 文件 块 ,即使 底层 文件 系统 提供 支持 。 因 此 ,设计 
中 操作 的 参数 \ 块 的 大 小 必须 要 重新 考虑 。 

(3) 文件 修改 主要 是 发 生 于 添加 新 数据 ,而 不 是 改变 已 存在 的 数据 。 一 旦 写 完 ,文件 就 
只 可 读 ,有 很 多 数据 都 有 这 些 特 性 。 一 些 数据 可 能 组 成 一 个 大 仓库 以 供 数 据 分 析 程 序 扫描 。 
有 些 是 运行 中 的 程序 连续 产生 的 数据 流 。 有 些 是 档案 性 质 的 数据 ,有 些 是 在 某 个 机 器 上 产 
生 , 在 另外 一 个 机 器 上 处 理 的 中 间 数 据 。 由 于 这 些 对 大 型 文件 的 访问 方式 ,添加 操作 成 为 性 
能 优化 和 原子 性 保证 的 焦点 。 而 在 客户 机 中 缓存 数据 块 则 失去 了 吸引 力 。 

(4) 工作 量 主要 由 两 种 读 操 作 构 成 : 对 大 量 数据 的 流 方式 的 读 操 作 和 对 少量 数据 的 随 
机 方式 的 读 操作 。 在 前 一 种 读 操作 中 ,可 能 要 读 几 百 KB, 通 常 达 IMB 和 更 多 。 来 自 同一 
个 客户 的 连续 操作 通常 会 读 文 件 的 一 个 连续 的 区 域 。 随 机 的 读 操作 通常 在 一 个 随机 的 偏 移 
处 读 几 个 KB。 人 性 能 敏感 的 应 用 程序 通常 将 对 少量 数据 的 读 操作 进行 分 类 并 进行 批 处 理 以 
使 得 读 操作 稳定 地 向 前 推进 ,而 不 要 让 它 来 来 回回 地 读 。 

(5) 工作 量 还 包含 许多 对 大 量 数 据 进 行 的 、 连 续 的 、 向 文件 添加 数据 的 写 操作 。 所 写 的 
数据 的 规模 和 读 相似 。 一 旦 写 完 ,文件 很 少 改动 。 在 随机 位 置 对 少量 数据 的 写 操作 也 支持 ， 
但 不 必 非 常 高 效 。 

(6) 系统 必须 高 效 地 实现 定义 完好 的 大 量 客户 同时 向 同一 个 文件 的 添加 操作 的 语义 。 


8.3.2 Hadoop 


Hadoop 文件 系统 是 一 个 能 兼容 普通 硬件 环境 的 分 布 式 文件 系统 ,和 现 有 的 分 布 式 文 
件 系 统 不 同 的 地 方 是 Hadoop 更 注重 容错 性 和 兼容 廉价 的 硬件 设备 ,这样 做 是 为 了 用 很 小 
的 预算 甚至 直接 利用 现 有 机 器 就 实现 大 流量 和 大 数据 量 的 读 取 。Hadoop 使 用 了 POSIX 
的 设计 来 实现 对 文件 系统 文件 流 的 读 取 。HDFS (Hadoop FileSystem) 原来 是 Apache 
Nutch 搜索 引擎 (从 Lucene 发 展 而 来 ) 开 发 的 一 个 部 分 ,后 来 独立 出 来 作为 一 个 Apache F 
wa, 

1. Hadoop 体系 结构 

Hadoop 文件 系统 是 主 从 架构 ,一 个 Hadoop 文件 系统 由 唯一 一 个 目录 结 点 (NameNode) 
和 多 个 数据 结 点 (DataNode) 组 成 。Hadoop 文件 系统 对 外 表现 为 一 个 普通 的 文件 系统 ,用 
户 可 以 用 文件 名 存储 和 访问 文件 ,而 实际 上 文件 是 被 分 成 不 同 的 数据 块 ,这 些 数据 块 存储 在 
数据 结 点 上 。 
目录 结 点 是 集群 里 面 的 主 结 点 ,负责 文件 名 的 维护 管理 ,也 是 客户 端 访问 文件 的 入 口 。 
文件 名 的 维护 包括 文件 和 目录 的 创建 .删除 、 重 命名 等 。 同 时 也 管理 数据 块 和 数据 结 点 的 映 
HKR ,客户 端 需要 访问 目录 结 点 才能 知道 一 个 文件 的 所 有 数据 块 都 保存 在 哪些 数据 结 
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数据 结 点 一 般 就 是 集群 里 面 的 一 台 机 器 ,负责 数据 的 存储 和 读 取 。 在 写 入 时 ,由 目录 结 
点 分 配 数据 块 的 保存 ,然后 客户 端 直接 写 到 对 应 的 数据 结 点 。 在 读 取 时 , 当 客 户 端 从 目录 结 
点 获得 数据 块 的 映射 关系 后 ,就 会 直接 到 对 应 的 数据 结 点 读 取 数据 。 数 据 结 点 也 要 根据 目 
录 结 点 的 命令 创建 .删除 数据 块 和 宛 余 复 制 。 一 个 典型 的 Hadoop 文件 系统 集群 部 署 ,是 由 
一 台 性 能 较 好 的 机 器 运行 目录 结 点 ,而 集群 里 面 的 其 他 机 器 每 台 上 面 运行 一 个 数据 结 点 。 
当然 一 个 机 器 可 以 运行 任意 多 个 数据 结 点 ,甚至 目录 结 点 和 数据 结 点 一 起 运行 ,不 过 这 种 模 
式 在 正式 的 应 用 部 署 中 很 少 使 用 。 

唯一 的 目录 结 点 的 设计 大 大 简化 了 整个 体系 结构 ,目录 结 点 负责 Hadoop 文件 系统 里 
所 有 元 数据 的 仲裁 和 存储 。 这 样 的 设计 使 数据 不 会 脱离 目录 结 点 的 控制 。Hadoop 文件 系 
统 的 整体 结构 见 图 8-2. 


元 数据 (名 字 ,副本 书 , … ), 
如 /home/foo/data.3,… 


元 数据 操作 
y 
谈 操 作 
数据 结 点 数据 结 点 
复制 
mBu|m G+ EB ||. 
E/E = 
RAN visi 


图 8-2 Hadoop 文件 系统 的 整体 结构 


Hadoop 文件 系统 使 用 的 是 传统 的 分 级 文件 体系 ,客户 端 程序 可 以 创建 目录 并 且 在 目 
录 里 面 保 存 文件 ,类 似 于 现在 一 般 的 文件 系统 。Hadoop 允许 用 户 创建 .删除 文件 ,在 目录 
间 转 移 文件 , 重 命名 文件 等 ,但 是 还 没有 实现 磁盘 配额 和 文件 访问 权限 等 功能 ,也 不 支持 文 
件 的 硬 连接 和 软 连 接 (快捷 方式 ) ,这 些 功 能 在 短期 内 不 会 实现 。 

目录 结 点 主要 负责 存储 和 管理 整个 文件 系统 的 命名 空间 ,应 用 程序 可 以 指定 某 一 个 文 
件 需要 在 Hadoop 文件 系统 中 宛 余 多 少 份 ,这 个 在 Hadoop 中 称 为 元 余 因 素 , 保 存在 目录 结 
点 里 面 。 

2. Hadoop 存储 原理 

Hadoop 文件 系统 是 为 了 大 文件 的 可 靠 保存 而 设计 的 ,一 个 文件 被 划分 成 一 连 串 的 数 
据 块 ,除了 文件 的 最 后 一 块 以 外 其 他 所 有 的 数据 块 都 是 固定 大 小 的 ,为 了 数据 容错 性 ,每 一 
个 数据 块 都 会 被 元 余 存 储 ,而 每 个 文件 的 块 大 小 和 宛 余 因素 都 是 可 以 设置 的 ,程序 可 以 设置 
文件 的 数据 块 要 被 复制 多 少 份 , 而 且 这 个 元 余 因 素 除 了 可 以 在 创建 的 时 候 指 定 , 还 可 以 在 之 
后 改变 。 在 Hadoop 文件 系统 里 面 文件 只 会 被 写 和 一次, 并且 任 何 时 间 只 会 有 一 个 程序 在 
BART ME. 

目录 结 点 是 根据 数据 块 的 元 余 状 况 来 作出 处 理 决 策 的 ,数据 结 点 会 定期 发 送 一 个 存在 
信号 (Heartbeat) 和 数据 块 列 表 给 目录 结 点 ,存在 信号 使 目录 结 点 认为 该 数据 结 点 还 是 有 效 
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的 ,而 数据 块 列表 包括 了 该 数据 结 点 上 面 的 所 有 数据 块 编号 。 


8.3.3 基于 云 计算 的 文件 系统 


下 面 是 一 个 面向 数据 密集 型 云 计 算 应 用 的 分 布 式 文件 系统 (Cloud based File System, 
CFS) 案 例 ,该 系统 的 主要 功能 和 应 用 集中 于 文件 的 分 布 式 存储 和 读 写 。 整 个 系统 由 多 个 
Master 结 点 ,数据 结 点 和 客户 端 组 成 。 它 具有 强 容错 性 和 可 扩展 性 ,屏蔽 操作 系统 和 硬件 
的 异 构 性 。 

1. 系统 设计 

该 分 布 式 文件 系统 由 客户 端 ,调度 模块 .存储 模块 三 个 角色 组 成 。 其 中 客户 端 主要 为 用 
户 提供 文件 的 上 传 . 下 载 ,查询 等 功能 ; 调度 模块 部 分 主要 实现 文件 跟踪 功能 ,为 文件 的 存 
储 进行 调度 ; 存储 模块 部 分 用 来 存储 文件 ,完成 文件 的 存储 、 同 步 ,并 提取 存 取 接 口 。 整 个 
系统 的 框架 结构 如 图 8-3 所 示 。 


a 
存在 信息 
= 


dd ez 
ag) 一 


图 8-3 云 计算 的 文件 系统 CFS 的 框架 结构 


为 了 满足 动态 的 网 络 环境 ,调度 模块 和 存储 模块 都 由 多 台 机 器 组 成 。 若 主 调度 模块 发 
生 宕 机 , 则 由 其 他 的 调度 模块 承担 跟踪 任务 ,调度 模块 之 间 定时 交互 整个 文件 系统 的 信息 。 
若 存 储 模块 发 生 宕 机 , 则 当 用 户 提交 申请 时 返回 给 同 组 内 的 其 他 机 器 ,以 便 使 用 其 副本 。 存 
储 模块 采用 分 组 的 方式 进行 组 织 , 整 个 文件 系统 由 多 个 组 组 成 ,同一 组 由 多 台 存 储 服务 器 组 
成 。 同 一 组 内 的 机 器 存储 的 内 容 是 相同 的 ,保证 了 同一 文件 具有 足够 的 副本 ,在 某 个 结 点 发 
生 宕 机 后 ,可 由 同 组 的 其 他 机 器 提供 备份 。 需 要 注意 的 是 ,这 里 的 组 只 是 一 个 逻辑 概念 。 同 
一 组 的 存储 服务 器 在 调度 模块 中 由 一 个 链表 组 织 起 来 , 若 某 个 服务 器 发 生 宕 机 , 则 调度 模块 
将 结 点 从 该 组 的 链表 中 删除 。 

CD 上 传 文件 功能 。 客 户 端 询 问 调度 模块 ,提出 要 上 传 文件 的 请 求 ; 调度 模块 返回 一 
台 可 用 的 存储 服务 器 地 址 ; 客户 端 直接 与 存储 模块 通信 完成 文件 上 传 功能 。 

(2) 下 载 文件 功能 。 客 户 端 向 调度 模块 提出 下 载 文 件 的 请 求 并 提供 文件 名 ; 调度 模块 
返回 可 供 下 载 的 存储 服务 器 地 址 ; 客户 端 直接 与 存储 模块 通信 完成 文件 下 载 功 能 。 

G) 查询 文件 功能 。 客 户 端 向 调度 模块 提供 待 查询 文件 名 或 文件 名 关键 字 ; 调度 模块 
返回 所 有 可 用 的 存储 服务 器 列表 。 
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2. 模块 设计 

CFS 系统 目前 主要 包括 调度 模块 存储 模块 .客户 端 。 

1) 调度 模块 

调度 模块 是 整个 分 布 式 系统 的 管理 结 点 ,与 客户 端 和 存储 模块 相连 ,负责 接收 来 自 客户 
端的 服务 请 求 以 及 与 存储 模块 的 数据 交互 。 主 要 功能 有 提供 服务 接口 .检索 文件 列表 、 查 找 
存储 服务 器 . 读 写 元 数据 、 数 据 备份 等 ,其 结构 如 图 8-4 所 示 。 


g 
ORRE 


图 8-4 调度 模块 结构 


服务 接口 指 的 是 调度 模块 接受 来 自 客户 端的 请 求 服务 ,通过 系统 中 用 户 信 息 检 查 当 前 
用 户 是 否 为 注册 客户 ,并 根据 不 同 请 求 执 行 相应 操作 。 检 索 文 件 列 表 指 根据 客户 端 发 送 过 
来 的 文件 名 ,在 文件 信息 中 检索 。 若 检索 到 则 返回 该 文件 在 存储 模块 中 的 存储 位 置 ,否则 返 
回 错误 信息 。 在 系统 中 采用 参考 文献 [11] 中 的 算法 来 产生 字典 序 树 ,这 种 算法 实现 简单 , 算 
法 时 间 复 杂 度 小 ,存储 空间 小 。 通 过 字典 序 树 ,系统 可 以 很 方便 地 进行 文件 检索 。 读 写 元 数 
据 是 指 当 客 户 端 查询 文件 信息 时 ,调度 模块 读 出 相应 文件 的 元 数据 传送 给 客户 端 ， 当 用 户 
往 存储 模块 写 文件 时 ,调度 模块 首先 查找 存储 信息 ,然后 返回 给 客户 端 相应 的 存储 服务 器 
IP 地 址 ,最 后 调度 模块 接受 和 保存 来 自 存储 模块 的 文件 存储 数据 ,并 把 该 元 数据 写 人 到 系 
统 。 这 里 的 元 数据 是 定义 的 一 组 数据 结构 ,包括 文件 存储 地 址 的 IP ,路径 等 信息 。 查 找 服 
务 器 是 指 寻 找 存储 模块 中 可 用 的 存储 服务 器 。 为 了 减少 查找 可 用 服务 器 中 的 存储 空间 和 当 
前 状态 的 额外 开销 ,调度 模块 与 存储 模块 中 的 一 个 代表 进行 信息 的 交互 , 称 为 代表 服务 器 。 
代表 服务 器 每 隔 一 段 时 间 记 录 来 自 其 他 组 存储 服务 器 的 存储 状态 ,并 把 该 记录 信息 发 送 给 
其 他 存储 服务 器 。 若 当前 代表 服务 器 宕 机 , 则 让 该 组 中 的 下 一 个 存储 服务 器 作为 代表 服务 
器 ,并 与 调度 模块 进行 联系 。 

此 外 ,在 设计 调度 模块 的 过 程 中 ,也 考虑 了 负载 均衡 问题 。 调 度 模块 在 选择 存储 空间 
时 ,以 每 个 组 中 存储 空间 最 小 的 存储 服务 器 为 标准 , 设 该 存储 服务 器 中 的 已 使 用 存储 空间 
Sused 与 总 存储 空间 su 的 比值 suas = Sused /siom ,并 以 此 来 确定 最 终 选 取 某 个 存储 服务 器 。 在 
存储 资源 分 配 算法 中 ,将 组 按 ssais 值 从 小 到 大 排序 ,每 次 选 sis 最 小 的 组 给 文件 , 若 文件 需 
分 块 存储 , 则 可 选择 按 swass 值 从 小 到 大 排序 的 前 & 个 (top &) 组 来 存储 。 此 外 ,可 以 根据 加 
入 文件 本 身 的 大 小 和 系统 当前 的 状态 等 因素 改进 分 配 算法 。 

为 了 防止 调度 模块 失效 ,增加 了 和 宛 余 服务 器 ,一 旦 当前 服务 器 失效 则 由 另外 的 服务 器 作 
为 调度 模块 提供 服务 。 因 此 先前 调度 模块 必须 把 文件 列表 在 周期 内 传送 给 元 余 服务 器 ,在 
当前 服务 器 失效 后 管理 结 点 仍 可 达到 无 缝 切换 。 

2) 存储 模块 

存储 模块 是 分 布 式 文件 系统 的 存储 单元 ,文件 系统 中 的 所 有 文件 都 保存 在 各 个 存储 服 
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务 器 的 不 同 组 中 。 存 储 模块 需 和 调度 模块 交互 文件 系统 的 状态 信息 ,直接 和 客户 端 进行 文 
件 的 传输 。 存 储 模块 的 主要 功能 分 为 文件 存储 、 存 在 信息 传输 、 服 务 接口 等 ,其 主要 结构 如 
图 8-5 所 示 。 


心跳 信息 传输 


8-5 存储 模块 结构 


文件 存储 是 存储 模块 最 主要 的 功能 。 分 布 式 文件 系统 的 所 有 文件 都 存储 在 各 个 存储 模 
块 结 点 中 。 由 于 分 布 式 文件 系统 是 由 大 量 的 存储 结 点 组 成 的 ,每 一 组 结 点 都 有 失效 的 可 能 ， 
因此 必须 为 每 一 个 文件 块 准备 一 定数 量 的 副本 。 在 文件 系统 中 引入 了 组 的 概念 ,在 这 里 组 
是 一 个 逻辑 概念 ,每 个 文件 块 都 会 在 同 组 的 其 他 服务 器 上 放置 副本 以 满足 元 余 性 。 需 要 注 
意 的 是 这 里 文件 被 切 分 成 很 多 个 32MB 大 小 的 文件 块 ,每 个 文件 块 利用 hash 函数 的 方法 选 
取 一 个 组 元 余 存 放 , 同 时 把 键 值 存储 在 调度 模块 中 ,在 查找 文件 时 根据 键 值 构成 一 一 映射 的 
关系 ,该 方法 实现 简单 且 有 和 较 低 的 时 间 复 杂 度 。 

存在 信息 传输 是 为 了 解决 分 布 式 文件 系统 高 失效 性 的 特点 而 设计 的 。 当 某 个 存储 结 点 
的 机 器 宕 机 时 ,分 布 式 文件 系统 应 当 在 一 定时 间 内 检测 到 该 意外 情况 并 立即 启用 该 存储 结 
点 文件 的 其 他 副本 ,避免 文件 丢失 。 因 此 ,这 里 设计 让 代表 服务 器 每 隔 一 定 的 时 延 向 调度 模 
块 发 送 自己 的 存在 信息 ,并 报告 自身 健康 状况 。 若 在 规定 的 时 延 后 调度 模块 仍 没有 收 到 某 
存储 服务 器 发 送 的 存在 信息 ,调度 模块 则 认为 该 服务 器 失效 ,并 立即 启用 同一 组 内 其 他 服务 
器 上 的 副本 。 除 此 之 外 ,代表 服务 器 还 会 将 自己 存储 的 文件 列表 传递 给 调度 模块 ,以 供 其 更 
新 整个 文件 系统 的 存储 列表 。 

服务 接口 是 指 存储 模块 直接 与 客户 端 交互 ,完成 文件 的 传输 。 根 据 客 户 端 提 交 的 服务 
请 求 (如 上 传 、 下 载 ) ,存储 模块 执行 相应 的 操作 o 

3) 客户 端 

客户 端 与 调度 模块 和 存储 模块 不 同 ,在 一 个 独立 的 进程 中 提供 服务 , 它 只 是 以 一 个 类 库 
的 模式 存在 ,提供 给 用 户 上 传 .下 载 和 查询 等 应 用 编程 接口 (Application Programming 
Interface,API) 。 当 用 户 需要 使 用 分 布 式 文件 系统 的 时 候 , 只 要 提交 服务 指令 和 必要 的 文 
件 信息 ,就 可 以 使 用 分 布 式 文件 系统 所 提供 的 各 种 文件 服务 了 。 例 如 , 当 用 户 需要 上 传 文件 
时 ,只 需要 提供 需 上 传 的 文件 名 和 本 地 路 径 。 客 户 端 首先 和 调度 模块 交互 握手 信息 ,表示 自 
己 需 要 上 传 文件 ,等 待 调度 模块 返回 可 用 的 存储 服务 器 地 址 。 在 得 到 地 址 之 后 ,客户 端 直接 
根据 返回 地 址 和 存储 模块 交互 ,将 文件 上 传 到 存储 模块 上 。 所 有 的 交互 信息 都 在 后 台 实现 ， 
对 于 用 户 来 说 是 透明 的 。 

当 用 户 登录 文件 系统 时 , 即 成 为 整个 文件 系统 的 客户 端 ,通过 向 调度 模块 提交 认证 信息 
获得 认证 。 如 果 该 用 户 第 一 次 登录 , 则 在 调度 模块 中 设置 文件 保存 该 用 户 的 认证 信息 ,便于 
调度 模块 下 次 识别 该 用 户 。 
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8.3.4 基于 虚拟 内 存 的 分 布 式 文件 系统 


由 于 磁盘 1/O 性 能 的 限制 ,分 布 式 文件 系统 CFS 的 键 值 不 适 于 海量 小 文件 的 存储 ,为 
了 解决 大 规模 数据 存储 的 可 扩展 性 ,提出 了 云 存储 技术 。 

为 了 解决 基于 硬盘 的 存储 系统 所 面临 的 各 种 问题 ,提出 了 基于 随机 访问 存储 器 的 云 存 
储 一 一 RClouds。 它 将 数据 完全 存储 于 DRAM 中 ,其 目标 是 提供 优 于 基于 硬盘 存储 100 一 
1000 倍 的 数据 吞吐 率 和 100 一 1000 倍 的 访问 延迟 。 因 此 从 根本 上 对 现 有 的 数据 存储 模式 
进行 了 改进 ,包括 重新 设计 交换 机 ,重新 设计 副本 策略 .数据 模型 .数据 分 布 策略 .系统 可 扩 
展 性 方式 一致 性 维护 方法 等 。 

1. 体系 结构 

为 了 解决 海量 小 文件 存储 系统 读 写 速度 慢 的 问题 ,本 课题 改进 传统 的 多 级 存储 结构 , 设 
计 并 实现 了 基于 虚拟 内 存 的 分 布 式 文件 系统 一 一 RDFS。 该 文件 系统 具有 高 数据 吞吐 率 、 
低 延 迟 、 高 可 靠 的 特性 ,设计 的 RDFS 如 图 8-6 所 示 。 


《二 > 数据 
一 一 控制 信息 


Fuse 接 口 


*ru Ll 监督 者 


$1 


数据 服务 器 1 ee 一 … 一 | 数据 服务 器 ?| | 元 数据 服务 器 


VD VD s VD Mnesia 数 据 库 


DRAM DRAM et DRAM | DRAM DRAM 
E 
Sa- aes 
图 8-6 RDFS 


RDFS 与 传统 分 布 式 文件 系统 的 区 别 主要 有 两 个 方面 : 将 数据 块 存放 在 虚拟 内 存 中 ， 
利用 内 存 的 随机 读 写 优势 来 获得 高 效 的 数据 读 写 性 能 ; 设计 了 监管 者 模块 以 保证 系统 的 高 
可 靠 性 和 高 可 用 性 。RDFS 主要 包括 VD、Mnesia 分 布 式 数据 库 、 元 数据 服务 器 、 数 据 服务 
器 、 客 户 端 和 监管 者 六 个 模块 。 

VD 模块 实现 了 基于 虚拟 内 存 的 数据 存储 。 将 数据 直接 存储 于 物理 内 存 的 效率 并 不 
高 。 这 是 因为 物理 内 存 和 内 核 存 储 器 是 分 开 维护 的 ,直接 将 数据 存储 于 物理 内 存 中 会 造成 
两 个 不 足 : 

CD 浪费 了 没有 被 文件 系统 使 用 的 物理 内 存 空间 ; 

(2) 数据 会 在 内 存盘 和 内 核 存储 器 中 重复 存储 .维护 时 需要 更 新 多 个 数据 备份 。 

VD 将 文件 全 部 存储 在 UNIX 内 核 管 理 的 虚拟 内 存 中 ,能够 使 用 已 有 的 内 核 接口 系统 
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资源 和 系统 工具 ,能 够 根据 数据 量 的 大 小 动态 地 调整 文件 系统 的 占用 空间 ,并 能 尽量 减少 对 
其 他 内 存 资 源 的 影响 。VD 能 够 大 大 减少 磁盘 和 网 络 1/O, 性 能 接近 于 基于 内 存 的 文件 系 
统 。 但 是 , 它 无 法 应 用 于 分 布 式 存储 的 环境 ,本 文 修改 了 VD 的 应 用 程序 接口 ,使 其 符合 
RDFS 其 他 模块 的 调用 方式 。Mnesia 是 一 个 用 Erlang 编写 的 多 用 户 的 分 布 式 DBMS。 本 
文 使 用 Mnesia 分 布 式 数据 库存 储 文件 的 元 数据 ,实现 了 元 数据 的 分 布 、 可 靠 存储 。 

2. 系统 实现 

1) 元 数据 服务 器 

元 数据 服务 器 负责 管理 所 有 文件 的 元 数据 信息 ,主要 包括 命名 空间 ,访问 控制 信息 , 文 
件 到 数据 块 的 映射 关系 ,数据 块 的 位 置信 息 等 。 除 此 之 外 ,元 数据 服务 器 也 控制 系统 级 别 的 
活动 ,主要 包括 数据 块 的 分 配 管理 .数据 器 状态 管理 和 数据 服务 器 之 间 的 数据 块 镜像 管理 
等 。 元 数据 服务 器 的 效率 对 整个 系统 性 能 具有 重要 的 影响 。 为 了 实现 元 数据 服务 器 的 高 
效 、 可 靠 和 可 扩展 ,RDFS 的 元 数据 服务 器 遵循 三 点 设计 原则 :尽量 减少 元 数据 服务 器 和 
其 他 结 点 的 网 络 交互 次 数 ,充分 发 挥 虚拟 内 存 的 速度 优势 ; @ 采 取 被 动 响应 模式 ,降低 元 数 
据 服务 器 的 负载 ; 四 使 用 Mnesia 分 布 式 数 据 库 实现 全 局 命名 空间 的 层次 化 ,持久 化 、 可 扩 
展 和 自动 故障 恢复 。 集 中 式 元 数据 管理 被 广泛 采用 ,并 获得 了 良好 的 性 能 。 近 年 来 ,由 于 集 
中 式 元 数据 管理 在 可 扩展 性 方面 的 局 限 性 , 越 来 越 多 的 研究 针对 分 布 式 元 数据 管理 。 
RDFS 充分 利用 Mnesia 分 布 式 数据 库 的 特性 ,实现 元 数据 的 高 性 能 ,高 可 靠 存储 。 

2) 数据 服务 器 

在 RDFS 中 ,每 一 个 文件 拆 分 成 固定 大 小 的 数据 块 ,数据 块 大 小 可 以 根据 不 同 的 需求 
设置 。 创 建文 件 时 ,系统 会 根据 文件 创建 时 间 采 用 标准 的 UUID 算法 为 每 一 个 数据 块 生成 
一 个 全 局 唯一 的 ,不 可 更 改 的 128b 数据 块 ID。 数 据 块 ID 由 客户 端 生成 ,而 不 由 元 数据 服 
务 器 分 配 ,这 样 能 够 减少 元 数据 服务 器 的 负载 和 网 络 交互 次 数 , 使 系统 的 整体 性 能 得 到 
提升 。 

3) 客户 端 

RDFS 的 客户 端 是 应 用 程序 访问 文件 系统 的 入 口 , 它 提供 了 包括 open, read, write, 
close, list delete 和 mkdir 等 访问 系统 的 应 用 程序 接口 。 客 户 端 向 元 数据 服务 器 请 求 元 数 
据 之 后 ,直接 向 数据 服务 器 请 求 数 据 块 ,以 减轻 元 数据 服务 器 的 负载 。 

4) Fuse 接口 

除了 提供 传统 的 API 接口 ,用 户 可 以 使 用 Fuse 开发 库 将 远程 目录 映射 到 用 户 的 本 地 
目录 。 映 射 完成 后 ,用 户 可 以 像 操 作 本 地 文件 一 样 访问 RDFS 中 的 对 象 ,传统 的 应 用 无 须 
任何 改动 便 可 透明 地 使 用 RDFS 提供 的 存储 服务 。 本 文 为 Fuse 接口 设计 了 128KB 的 写 组 
1£.8—512KB 的 自 适应 读 缓存 , 它 能 够 显著 提高 小 文件 的 读 写 性 能 。 

5) 监管 者 

RDFS 将 进程 清晰 地 划分 为 工作 进程 与 监控 进程 两 大 类 ,工作 进程 负责 执行 正常 的 事 
务 ,监控 进程 负责 监控 工作 进程 状态 和 故障 恢复 。 监 管 者 的 工作 方式 是 一 对 一 的 进程 监控 ， 
即 一 个 监控 进程 监控 一 个 工作 进程 。RDFS 采用 一 对 一 的 进程 监控 为 每 一 个 元 数据 服务 
器 、 数 据 服务 器 和 客户 端 工作 进程 启动 一 个 监控 进程 。 若 工作 进程 失效 , 则 监控 进程 会 重新 
启动 它 , 实 现 进程 的 不 间断 运行 和 自动 恢复 。 对 于 多 次 重启 仍然 失效 的 进程 ,监管 者 会 中 断 
该 进程 并 更 新 相应 的 元 数据 和 数据 。 
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3. 可 靠 性 分 析 

D 元 数据 可 靠 性 

元 数据 可 靠 性 保证 采用 热 备 的 方式 实现 ,即将 一 张 数据 库 表 复制 到 多 个 结 点 上 。 数 据 
库 表 的 所 有 副本 是 等 同 的 ,并 都 存放 在 虚拟 内 存 中 ,以 实现 元 数据 的 快速 读 写 。 若 对 某 张 表 
进行 修改 , 则 每 个 事务 中 的 写 操作 会 在 所 有 的 副本 上 执行 。 这 些 操 作对 应 用 程序 来 说 都 是 
透明 的 。 另 外 ,监管 者 会 启动 一 个 监控 进程 来 捕获 元 数据 服务 器 的 运行 状态 。 当 元 数据 服 
务 器 失效 时 ,该 监控 进程 会 立即 接管 元 数据 服务 器 的 任务 继续 执行 。 

2) 数据 备份 策略 

RDFS 利用 数据 备份 来 解决 停电 或 成 片 务 器 掉 电 的 问题 。 在 双 电 源 市 电 都 停 运 时 , 系 
统 采用 UPS 供电 ,并 启动 系统 备份 程序 将 元 数据 和 虚拟 内 存 中 的 数据 保存 到 磁盘 。 待 所 有 
数据 保存 完成 之 后 ,停止 系统 运行 。RDFS 重启 时 ,将 元 数据 载 和 人 Mnesia 数据 库 中 ,并 将 数 
据 载 人 至 虚拟 缓存 中 。 待 所 有 工作 完成 后 ,系统 即 可 提供 服务 。 

3) 数据 副本 策略 

默认 情况 下 ,RDFS 为 每 一 数据 块 保存 三 个 数据 副本 ,分别 存放 在 本 机 、 本 机 架 内 的 另 
一 台数 据 服务 器 和 跨 机 架 的 数据 服务 器 的 虚拟 缓存 中 。 对 于 不 同 的 数据 可 靠 性 要 求 ,用户 
可 以 指定 数据 块 的 备份 数量 。 通 常 ,在 创建 数据 块 、 重 新 复制 数据 块 和 数据 块 均衡 时 需要 创 
建 副 本 。 如 数据 服务 器 失效 , 某 一 数据 服务 器 硬盘 故障 , 某 一 数据 副本 故障 ,或 者 增加 了 副 
本 数量 等 , 均 会 创建 一 个 新 副本 。 当 数据 块 的 副本 数量 小 于 用 户 指定 的 备份 数量 时 ,监管 者 
会 立刻 重新 复制 一 个 数据 块 副本 。 

4) 心跳 机 制 

数据 服务 器 每 隔 5s 与 元 数据 服务 器 进行 一 次 心跳 通信 ,向 元 数据 服务 器 传递 数据 服务 
器 的 状态 信息 。 元 数据 服务 器 超过 指定 时 间 没 有 收 到 某 一 数据 服务 器 的 心跳 信息 , 即 认为 
该 数据 服务 器 失效 ,并 启动 错误 处 理 程序 更 新 相应 的 元 数据 和 数据 副本 。 


8.4 本 章 小 结 


本 章 首先 对 云 计算 以 及 云 计算 的 关键 技术 进行 了 概述 ,然后 对 云 存 储 的 系统 架构 和 优 
势 进行 了 分 析 , 接 下 来 对 CFS 设计 并 实现 了 一 种 适用 于 云 计 算 条 件 下 的 分 布 式 文件 系统 ， 
应 用 了 负载 均衡 技术 ,良好 地 适应 了 分 布 式 系统 的 动态 性 和 高 时 效 性 ,实现 了 大 容量 数据 的 
存储 和 同步 等 功能 ,并 且 具 有 良好 的 可 扩展 性 。 
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9.1 对 等 网 络 安全 问题 


9.1.1 研究 背景 


随 着 现 有 P2P 系统 的 广泛 .深入 的 应 用 ,P2P 系统 逐渐 暴露 出 一 些 安全 
问题 ,其 中 一 个 主要 原因 是 存在 一 些 诸如 结 点 自主 行为 引起 的 不 可 靠 的 服务 
质量 、 网 络 攻 击 等 。P2P 系统 具有 的 匿名 性 、 高 度 的 开放 性 以 及 加 入 系统 的 
用 户 结 点 类 型 目的、 利益 空间 差异 性 大 等 因素 致使 结 点 行为 也 不 尽 相 同 , 按 
照 结 点 自主 行为 的 不 同 将 这 种 情况 分 为 以 下 两 种 : 

CD 自私 行为 。 如 搭便 车 (Free-Rider) 和 公用 地 悲剧 (Common Land 
Tragedy), Hf Free-Rider 指 结 点 只 使 用 其 他 结 点 提供 的 资源 或 服务 ,而 不 
共享 自己 的 资源 。 以 Gnutella 文件 共享 系统 为 例 ,高 达 70% 的 结 点 是 Free- 
Riders™ 。 公 用 地 悲剧 指 网 络 资源 作为 一 种 非 排他 的 公共 资源 ,被 大 多 数 
P2P 结 点 无 节制 地 使 用 。 结 点 之 间 的 不 合作 及 利己 的 自私 行为 严重 影响 了 
P2P 服务 的 可 用 性 。 

(2) 恶意 行为 。P2P 网 络 中 还 存在 着 为 数 不 少 的 蓄意 提供 不 可 靠 的 服务 
质量 以 及 欺诈 行为 的 结 点 。 这 些 结 点 并 不 关心 资源 访问 , 仅 为 了 散布 无 效 的 
或 有 害 的 内 容 , 如 虚假 的 文件 .病毒 和 木马 等 ,它们 对 所 有 的 查询 都 做 出 积极 
的 响应 (无 论 是 请 求 下 载 文件 还 是 请 求 推 荐 信息 )。 亚 意 结 点 的 存在 严重 影 
响 了 P2P 系统 的 性 能 ,使 得 P2P 系统 的 可 用 性 得 到 极 大 的 破坏 。 

本 节 通 过 激励 机 制 、 信 任 机 制 和 文件 安全 机 制 对 结 点 的 行为 进行 约束 ， 
引导 P2P 结 点 更 倾向 于 成 为 一 个 “好 ”行为 的 结 点 ,构建 一 个 良性 安全 的 对 等 
网 络 。 


9.1.2 激励 机 制 
P2P 系统 尽管 具有 系统 容错 性 高 ,容量 大 、 可 扩展 性 好 等 优点 ,但 是 缺点 
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同样 明显 。 由 于 P2P 网 络 的 分 布 式 特性 ,单个 结 点 具有 更 大 的 自由 度 , 服 务 质 量 因 此 无 法 
得 到 保证 ; 结 点 动态 性 使 得 服务 不 稳定 ; 结 点 的 自私 性 导致 只 有 少 部 分 结 点 愿意 提供 服 
务 ; 同时 少 部 分 恶意 结 点 更 容易 对 其 他 结 点 发 起 攻击 ,这 些 攻击 包括 针对 文件 的 攻击 和 针 
对 路 由 的 攻击 中。 系统 测量 表明 站,P2P 网 络 中 大 量 用 户 ( 约 70%) 只 获取 服务 ,不 提供 服 
务 , 这 导致 了 PP 网 络 较为 严重 的 不 公平 性 问题 。 还 有 一 部 分 结 点 通过 欺诈 手段 增 大 自身 
利益 ,针对 文件 进行 攻击 ,例如 随意 伪造 文件 ,随意 中 止 服务 等 外 ,甚至 有 的 结 点 之 间 互 相 勾 
结 联合 进行 攻击 (Sybil Attackr])。 在 传统 网 络 中 ,由 于 服务 总 是 由 中 心服 务 结 点 提供 , 公 
平 性 问题 和 服务 的 安全 性 可 靠 性 问题 并 不 突出 ,但 是 在 P2P 中 ,需要 激励 结 点 提供 安全 可 
靠 的 服务 。 

1. 搭便 车 问题 

P2P 网 络 资源 的 丰富 依赖 于 用 户 对 自己 可 用 资源 的 共享 。 但 是 ,真正 在 网 络 上 创造 或 
提供 内 容 的 人 还 是 少数 的 。 据 统计 Gnutella 的 用 户 中 仅 有 2% 向 其 他 用 户 提 供 了 内 容 , 即 
使 在 比较 活跃 的 Usene 七 张贴 文章 的 用 户 也 仅 占 所 有 用 户 的 7%。 虽 然 P2P 模式 中 有 着 传 
输 速度 大 和 共享 性 质 的 种 种 优点 ,但 现实 中 往往 出 现 人 们 只 想得到 别人 的 共享 文件 却 没 有 
把 自己 的 有 用 资源 共享 出 来 的 问题 ,由 此 产生 了 P2P 网 络 应 用 中 的 一 个 广泛 存在 的 消极 现 
象 一 一 搭便 车 。 搭 便 车 定义 为 一 个 自私 的 个 体 有 意识 地 拒绝 为 某 个 群体 的 共同 利益 自愿 地 
贡献 。Saroiu 等 在 2002 年 发 表 的 论文 四 中 指出 ,根据 他 们 对 Napster 和 Gnutella 的 实验 的 
最 新 结果 表明 : 大 多 数 用 户 只 作为 消费 者 而 不 对 系统 贡献 自己 的 资源 ,50% 的 “种 子 ” 在 线 
时 间 不 超过 1h, 多 数 的 用 户 都 是 搭便 车 者 ,对 系统 贡献 很 少 。 比 如 Gnutella 系统 中 有 25% 
的 用 户 根本 不 共享 任何 资源 。“ 种 子 ” 的 短缺 意味 着 系统 中 部 分 有 价值 的 资源 长 时 间 得 不 到 
利用 ,搭便 车 现象 的 增加 使 得 整个 系统 失去 P2P 分 布 式 共享 资源 的 精神 ,这 一 现象 的 草 延 ， 
将 导致 P2P 退化 成 传统 的 C/S ABE, HIS A TB KF P2P 激励 机 制 方面 的 理论 研 
究 课 题 和 商业 计划 ,提出 P2P 激励 模型 ,向 系统 贡献 资源 的 用 户 能 从 网 络 中 得 到 相应 的 回 
Ait ,激励 用 户 共享 资源 以 消除 搭便 车 现象 。 

2. 现实 情况 

在 P2P 网 络 中 ,尤其 是 纯 P2P 模式 的 网 络 中 ,并 没有 一 个 中 心 结 点 或 是 权威 对 合作 进 
行 监督 。 每 个 结 点 都 是 理性 的 ,它们 追求 的 是 自身 效用 的 最 大 化 。 如 果 与 其 他 结 点 合作 , 提 
供 资源 或 服务 ,将 会 消耗 结 点 的 资源 ,并 降低 结 点 的 性 能 。 尽 管理 性 的 结 点 可 以 预见 缺乏 合 
作 会 导致 P2P 网 络 的 总 体 性 能 的 下 降 , 但 由 于 合作 所 带 来 的 好 处 并 不 直接 ,因此 结 点 合作 
的 动力 不 大 。 有 研究 人 员 对 一 个 具有 35352 台 主 机 的 实际 运行 的 Gnutella 网 络 进行 了 24 
小 时 的 监控 ,发 现在 Gnutella 网 络 中 搭便 车 现象 盛行 , 近 70% 用 户 是 搭便 车 者 , 即 它们 未 被 
共享 任何 文件 ; 近 50% 的 回应 来 自 仅 1% 的 用 户 。 研 究 人 员 认 为 ,P2P 网 络 需要 自发 的 合 
作 , 但 这 对 于 匿名 的 大 规模 系统 很 难 做 到 ; 理性 用 户 关 心 效用 ,并 会 影响 其 是 否 选择 合作 。 

一 个 缺乏 合作 的 P2P 网 络 中 ,搭便 车 现象 非常 普遍 ,很 多 结 点 总 下 载 资源 或 索取 服务 ， 
从 来 不 提供 资源 或 服务 。 更 有 其 者 ,有 的 结 点 提供 假 的 资源 或 服务 ,这 种 现象 在 eMule 网 
络 中 也 屡见不鲜 。 有 些 结 点 故意 限制 或 谎报 网 速 ,以 达到 少 提供 或 不 提供 资源 或 服务 的 目 
的 。 所 有 的 这 种 种 行为 ,导致 了 公用 地 悲剧 加 : 网 络 资源 集中 化 ,造成 网 络 拥堵 。 另 一 方面 
也 导致 网 络 资源 同 质 化 , 结 点 不 愿意 主动 引入 新 的 资源 。 最 终 使 得 整个 P2P 网 络 性 能 急剧 
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下 降 , 所 有 参与 其 中 的 结 点 的 利益 都 受到 不 同 程度 的 损害 。 

上 述 问 题 的 根源 在 于 ,目前 的 P2P 网 络 ,无 论 是 采用 何 种 架构 或 模式 ,都 基于 一 个 假 
设 , 那 就 是 每 个 参与 的 结 点 都 能 善意 地 、 最 大 化 地 提供 网 络 资源 。 这 个 假设 忽略 了 一 个 事 
实 , 那 就 是 每 个 结 点 后 面 都 是 具体 的 人 , 结 点 的 行为 实际 上 就 是 个 人 的 行为 。 因 此 ,可 以 通 
过 研究 个 人 的 行为 来 解决 这 个 问题 。 作 为 组 织 行 为 学 的 重要 组 成 部 分 的 激励 机 制 , 在 这 里 
可 以 发 挥 巨大 的 作用 。 

3. 面临 的 问题 

尽管 传统 的 激励 机 制 在 实际 应 用 中 已 经 展现 出 它 的 巨大 威力 ,然而 P2P 网 络 具 有 其 特 
殊 性 ,因而 不 能 照搬 传统 的 激励 机 制 ,而 是 应 该 从 P2P 的 实际 情况 出 发 ,制定 出 适用 于 P2P 
网 络 的 激励 机 制 。 在 制定 之 前 ,需要 对 P2P 网 络 中 激励 机 制 可 能 面临 的 问题 中 进行 研究 。 

传统 的 组 织 有 大 有 小 ,但 总 的 来 说 ,一 个 组 织 的 员工 并 不 会 太 多 。 以 全 球 最 大 的 软件 公 
司 一 一 微软 为 例 ,其 业务 已 经 遍及 全 球 90 多 个 国家 和 地 区 ,其 全 球员 工 总 数 将 近 60 000 
人 , 它 可 以 算是 一 个 巨型 的 组 织 了 。 而 根据 统计 器 ,在 一 个 像 Gnutella 和 KaZaa? 这 样 的 
文件 共享 系统 中 ,只 是 其 并 发 的 用 户 数 完全 可 能 超过 100 000。 由 此 可 见 , 不 同 于 传统 组 织 ， 
P2P 网 络 可 以 拥有 非常 多 的 成 员 ( 结 点 ) 数 量 。 

在 传统 的 组 织 中 ,尽管 也 存在 着 员工 离职 或 新 员工 入 职 ,从 而 存在 一 定 的 周转 率 ,一 般 
来 讲 , 这 个 周转 率 并 不 会 太 高 (如 果 有 组 织 有 很 高 的 周转 率 的 话 , 工 作 效 率 的 降低 往往 是 因 
为 员工 交接 及 新 员工 需要 时 间 适 应 新 环境 和 新 工作 引起 的 ,这 并 非 激 励 机 制 所 能 解决 的 ) 。 
然而 ,根据 研究 人 员 的 统计 ,在 像 Gnutella 和 KaZaa 这 样 的 文件 共享 系统 中 , 结 点 从 加 入 网 
络 到 离开 网 络 的 时 间 间 隔 , 即 “生存 时 间 ”, 其 平均 值 基 本 上 是 以 分 钟 计算 的 。 由 此 可 见 ， 
P2P 网 络 具 有 很 高 的 周转 率 。 

传统 的 组 织 中 ,员工 往往 以 部 门 或 项 目 为 单位 进行 组 织 管理 。 在 同一 个 单位 中 的 员工 ， 
往往 具有 相同 或 类 似 的 兴趣 ,这 为 激励 机 制 的 应 用 带 来 了 很 大 的 方便 。 而 在 P2P 网 络 中 ， 
由 于 结 点 都 是 对 等 的 ,因而 并 不 存在 这 样 的 单位 。 而 且 , 结 点 之 间 的 兴趣 也 是 不 对 等 的 , 比 
如 A 可 能 对 B 的 资源 或 服务 感 兴 趣 , 而 B 却 对 C 的 资源 或 服务 感 兴趣 。P2P 网 络 这 种 兴趣 
不 对 等 的 特征 对 于 传统 的 激励 机 制 来 讲 , 是 一 个 巨大 的 挑战 。 

在 P2P 网 络 中 ,多 个 结 点 可 能 “串通 作案 ”, 以 提高 自身 的 信誉 。 这 种 情况 在 一 些 采用 
了 基于 信誉 的 激励 机 制 的 P2P 网 络 中 非常 普遍 。 在 传统 的 组 织 中 ,尽管 也 存在 类 似 的 问 
题 ,但 传统 的 激励 机 制 中 信誉 不 是 主要 的 因素 ,因而 这 种 行为 对 传统 激励 机 制 的 影响 比较 
小 ; 另外 ,在 P2P 网 络 中 的 这 种 行为 更 难 察觉 ,具有 更 大 的 危害 性 。 

P2P 网 络 还 带 来 了 两 个 在 传统 的 组 织 中 不 存在 的 问题 。 一 个 是 零 成 本 身份 切换 ,在 
P2P 网 络 中 ,由 于 结 点 都 是 匿名 的 ,因而 结 点 可 以 任意 地 更 改 自己 的 身份 。 另 一 个 是 行为 背 
叛 的 问题 , 即 一 个 在 历史 上 行为 良好 的 结 点 ,突然 更 改 其 行为 , 变 成 一 个 搭便 车 者 ,或 做 出 其 
他 危害 P2P 网 络 的 行为 。 

4. 激励 模型 

在 P2P 网 络 中 ,激励 模型 可 以 大 体 被 分 为 两 类 : 货币 支付 模型 , 即 结 点 间 每 次 文件 的 
上 传 和 下 载 都 需要 明确 的 货币 支付 ; @ 非 货币 模型 (又 称 软 激励 模型 ) , 即 不 使 用 明确 的 货 
币 支付 而 采用 其 他 的 方法 提供 激励 。 
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1) 货币 支付 模型 

CD 真实 货币 支付 。 用 户 在 网 络 中 出 售 自己 的 资源 ,利用 了 用 户 资源 的 网 格 组 织 通过 
银行 向 该 用 户 支付 真实 货币 ,付费 在 网 络 外 进行 。 这 种 方式 广泛 地 应 用 在 网 格 计算 的 经 济 
模型 中 ,目前 的 一 些 网 格 系统 如 Globus, Legion 等 已 经 提供 了 大 量 的 、 成 熟 的 .可 重用 的 中 
间 件 ,例如 资源 协同 分 配 服务 DUROC、 认 证 和 安全 服务 GSI 等 。 

(2) MicroPayment。 在 这 种 模型 下 ,所 使 用 的 货币 并 不 能 兑换 为 现实 货币 ,可 以 称 为 虚 
拟 货币 。 每 个 用 户 下 载 资源 之 前 必须 向 服务 提供 结 点 支付 相应 价格 的 虚拟 货币 。 为 网 络 中 
其 他 结 点 提供 服务 可 以 得 到 相应 的 虚拟 货币 ,所 以 为 了 能 够 持续 地 得 到 网 络 资源 , 结 点 必须 
不 断 地 以 自己 的 服务 换 回 足够 多 的 虚拟 货币 才 行 。 其 中 货币 的 交易 必须 具备 ACID, 即 
Atomicity( 原 子 性 ) .Consistency( 连 贯 性 ) 、Isolation( 孤 立 性 )、Durability( 耐 久 性 )。 现 实 中 
的 系统 包括 MojoNation"" , Maze 等 。 

2) 软 激励 模型 

(1) 实物 交换 模型 。 用 户 总 是 只 有 共享 了 文件 ,对 系统 做 出 了 贡献 才能 从 别人 那里 下 
载 文件 。 上 传 与 下 载 的 速率 同样 受到 控制 , 即 用 户 使 用 一 定 的 速率 下 载 文 件 ,也 必须 要 提供 
相应 的 上 传 速率 。 使 用 这 样 的 机 制 的 系统 目前 有 eDonkey 和 BitTorrent. 

(2) 区 分 服务 质量 模型 。 向 系统 贡献 越 多 , 则 可 以 得 到 更 好 的 服务 ,比如 优先 的 访问 
权 , 更 为 稳定 的 传输 ,更 高 速 的 下 载 , 更 大 的 存储 空间 等 。 例 如 在 参考 文献 [12] 中 所 提出 的 
根据 结 点 服务 情况 和 使 用 情况 矩阵 特征 向 量 来 决定 是 否 向 请 求 服务 提供 结 点 提供 其 所 要 求 
的 服务 。 

对 于 如 何在 P2P 上 建立 激励 模型 ,采用 什么 样 的 激励 机 制 及 算法 ,众多 研究 者 进行 了 
大 量 的 研究 和 实验 。 目 前 在 P2P 网 络 中 引入 激励 机 制 的 主要 方法 有 : 四 重新 设计 分 布 式 的 
资源 定位 协议 来 实现 网 络 激励 ,如 对 于 网 络 贡献 大 的 结 点 可 以 把 资源 搜索 报 文 传输 到 更 多 
的 结 点 ,进而 增 大 结 点 资源 的 发 现 概率 。@ 在 已 有 的 协议 上 增加 特殊 的 激励 算法 ,如 以 请 求 
的 接纳 控制 .服务 质量 的 区 分 等 来 实现 网 络 激励 。 

现在 大 量 的 研究 工作 集中 在 在 现 有 路 由 协议 上 增加 特殊 激励 算法 来 实现 激励 。 这 主要 
是 因为 现 有 的 资源 定位 协议 ,不论 是 使 用 无 结构 泛 洪 还 是 使 用 有 结构 分 布 式 哈 希 函数 来 定 
位 资源 的 协议 都 基本 成 熟 , 并 且 有 大 量 的 应 用 ,抛弃 现 有 的 大 量 系统 而 重新 开发 基于 新 协议 
的 应 用 代价 过 大 。 采 用 在 现 有 协议 上 增加 激励 的 方法 ,不 仅 理论 上 更 容易 实现 ,而 且 解决 了 
现实 中 大 量 存在 系统 的 缺陷 ,有 更 加 现实 的 意义 。 

5. 激励 机 制 研究 现状 

D 基于 微 支付 和 虚拟 货币 的 机 制 

斯 坦 福 大 学 的 Phillipe Golle 等 人 首先 提出 了 使 用 微 支 付 和 虚拟 货币 的 方法 来 解决 
P2P 共享 网 络 中 的 共享 激励 问题 3] 。 这 个 机 制 主要 思想 是 ,服务 器 记录 每 个 注册 用 户 文件 
下 载 数量 u 和 文件 上 传 数量 w ,每 次 用 户 间 传递 文件 时 ,服务 器 将 提供 文件 下 载 的 用 户 的 文 
fF EAE BOR v Jn 1 ,并 将 下 载 文件 的 用 户 的 文件 下 载 数 量 w 加 1。 每 隔 一 段 时 间 , 服 务 器 为 
每 个 用 户 计算 应 支付 的 金额 C= fCu 0 。 这 里 的 函数 f 根据 一 定 的 算法 将 用 户 的 下 载 与 
上 传 差额 换算 成 用 户 应 该 支付 的 金额 。 函 数 f 一 般 采 用 线性 函数 ,以 便 使 得 整个 网 络 中 的 
微 支付 总 额 为 0( 收 支 平衡 )。 

为 了 增加 该 机 制 的 灵活 性 ,又 引入 称 为 “点 数 ” 的 虚拟 货币 。 服 务 器 不 再 记录 用 户 的 文 
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件 下 载 数量 和 上 传 数量 ,而 是 记录 用 户 的 点 数 。 每 次 用 户 间 传递 文件 时 ,服务 器 增加 提供 文 
件 下 载 的 用 户 的 点 数 ,同时 减少 下 载 文件 的 用 户 的 点 数 。 用 户 可 以 通过 提供 文件 下 载 来 获 
得 点 数 , 也 可 以 直接 使 用 现实 货币 购买 点 数 。 在 使 用 现实 货币 购买 点 数 的 情况 下 ,由 于 交易 
额 一 般 很 小 ,直接 通过 银行 支付 费用 相对 较 高 ,而 且 比 较 麻烦 ,因此 需要 有 第 三 方 来 向 用 户 
销售 点 数 ,再 由 其 与 银行 结算 。 这 个 第 三 方 称 为 经 纪 人 (Broker) 。 

这 样 一 来 ,经 纪 人 结 点 的 稳定 性 在 这 种 机 制 中 就 至 关 重 要 了 。 因 此 ,PPay59 引 入 并 实 
现 了 浮动 的 、 自 管理 的 货币 的 概念 ,最 大 限度 地 减少 经 纪 人 的 介入 。 浮 动 的 货币 允许 数字 货 
币 ( 即 虚拟 货币 ) 在 没有 经 纪 人 参与 的 情况 下 ,也 能 从 一 个 结 点 “ 浮 ” 到 另 一 个 结 点 。 至 于 说 
自 管理 ,是 指 在 PPay 中 ,由 拥有 数字 货币 的 结 点 自身 来 负责 数字 货币 的 安全 ,只 有 在 购买 
数字 硬币 或 兑换 成 现实 货币 时 才 需 要 经 纪 人 的 介入 。 

Filetellerm" 1 是 一 个 网 络 文件 存储 系统 , 它 也 采用 微 支付 方式 来 对 网 络 中 的 用 户 进行 
激励 。 

在 支付 系统 中 ,资源 或 服务 以 商品 的 形式 存在 ,消费 者 要 购买 使 用 权 ,而 提供 者 可 以 获 
得 报酬 。P2P 系统 中 , 结 点 通过 向 其 他 结 点 提供 资源 或 服务 来 获得 报酬 ,并 用 获得 的 报酬 去 
购买 自己 所 需 的 资源 或 服务 。 由 于 P2P 系统 中 的 资源 常常 是 比较 廉价 的 (例如 空闲 的 带宽 
或 CPU 时 间 等 ), 所 以 在 P2P 中 采用 的 多 是 微 支付 (Micropayment) 系 统 ,每 笔 交易 的 价值 
较 小 ,对 安全 性 等 方面 的 要 求 也 相对 较 低 。 

学 术 界 研究 文献 中 提出 的 比较 典型 的 P2P 支付 系统 有 PPay™ , KARMA™®) 、 
PeerMini 24%, SAP AY P2P 微 支付 系统 实例 有 Popular Power 和 MojoNation 中 ,前 者 
付 少量 的 报酬 购买 别人 的 空闲 CPU 时 间 用 以 构造 P2P 分 布 计算 网 络 ,再 出 售 给 需要 的 用 
户 , 后 者 是 一 个 P2P 在 线 支付 系统 。 

2) 基于 配额 的 机 制 

基于 配额 的 机 制 的 主要 思想 是 ,为 每 个 结 点 设 定 一 个 配额 , 结 点 在 一 个 时 间 段 内 从 PP 
网 络 中 的 下 载 总 量 不 得 超过 这 个 配额 。 

CFS69 是 一 个 只 读 的 P2P 网 络 存 储 系统 ,为 了 减少 攻击 ,提高 系统 的 安全 性 , 它 采 用 了 
存储 配额 机 制 ,规定 每 个 结 点 只 能 访问 存储 系统 总 量 的 一 个 很 小 的 比例 ,例如 0. 126. 

CFS 引入 配额 的 动机 并 非 是 为 了 激励 ,而 是 为 了 提高 系统 的 稳定 性 和 安全 性 ,而 
FARSITE'! 和 Pasticher 中 则 将 配额 用 于 激励 机 制 。 这 两 种 激励 机 制 都 是 通过 限制 结 点 能 
够 从 P2P 网 络 中 获取 的 资源 与 其 对 P2P 网 络 的 贡献 相当 ,从 而 激励 用 户 贡 献 资源 。 

Samsarar 沁 则 采用 了 一 种 比较 特别 的 策略 : 每 个 结 点 在 向 其 他 结 点 请 求 存储 空间 之 
前 ,必须 允诺 对 方 能 够 使 用 本 结 点 上 相同 大 小 的 空间 ,对 于 那些 不 遵守 规则 的 结 点 ， 
Samsara 会 以 一 定 的 概率 进行 惩罚 。 

3) 基于 信誉 的 机 制 

信任 是 指 一 个 结 点 基于 个 体 体验 ,对 另 一 个 结 点 在 系统 中 可 信 度 方面 的 一 个 评价 ,而 信 
誉 则 是 指 一 个 结 点 通过 合作 的 方式 ,基于 自己 或 者 其 他 结 点 的 一 些 信息 来 获得 其 他 结 点 在 
系统 中 的 可 信 度 方面 的 一 个 评价 。 

P2P 系统 中 信任 和 信誉 关系 的 基本 思想 是 用 户 间 完成 交易 后 ,可 以 对 这 次 交易 进行 评 
价 , 从 而 给 对 方 一 个 评价 。 用 户 间 可 以 通过 这 些 相 互 间 直接 的 评价 来 建立 对 对 方 直接 的 信 
任 关系 。 同 时 ,这 种 直接 的 信任 关系 可 以 通过 某 种 信任 传播 算法 来 描述 用 户 在 系统 中 的 主 
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观 或 者 客观 的 信誉 值 。 

信誉 模型 主要 分 为 主观 的 信誉 模型 和 客观 的 信誉 模型 。 主 观 的 信誉 模型 是 指 每 个 结 点 
都 建立 并 维护 一 个 信誉 表 , 这 个 表 中 存储 了 结 点 对 每 个 有 过 交往 的 结 点 的 信誉 的 评价 。 而 
客观 的 信誉 模型 中 用 户 不 用 单独 维护 信誉 表 , 而 是 在 整个 P2P 网 络 中 ,所 有 结 点 以 某 种 机 
制 共 同 维护 一 个 全 局 信誉 表 , 这 个 表 中 存储 了 所 有 结 点 的 全 局 信誉 值 。 

SLIC[ 当 是 一 个 典型 的 主观 的 信誉 模型 。 它 的 基本 思想 是 : 每 个 结 点 统计 各 个 邻居 结 
点 对 本 结 点 发 出 的 请 求 的 响应 情况 ,然后 根据 响应 情况 给 其 打分 ,响应 越 好 ,得 分 越 高 。 这 
个 打分 每 隔 一 段 时 间 进 行 一 次 ,打分 的 结果 作为 接 下 来 的 时 间 段 中 本 结 点 对 邻居 结 点 的 请 
求 进行 响应 的 依据 。 每 个 结 点 既 要 响应 邻居 结 点 的 请 求 ,又 要 发 出 自己 的 请 求 , 而 且 每 个 结 
点 的 能 力 是 有 限 的 ,因此 它 必 须要 在 响应 请 求 和 发 送 自己 的 请 求 之 间 找 到 一 个 平衡 点 ,使 得 
在 为 邻居 结 点 服务 的 同时 不 影响 自己 从 P2P 得 到 服务 的 质量 。 

主观 的 信誉 模型 实现 比较 简单 ,只 要 发 生 交 互 的 两 个 结 点 的 参与 ,但 是 ,对 于 那些 为 邻 
居 结 点 提供 过 良好 服务 的 结 点 , 当 它 们 与 新 的 结 点 交互 时 ,其 良好 的 历史 记录 并 不 能 为 其 带 
来 好 处 ,这样 对 它们 来 讲 并 不 公平 ,一 定 程 度 上 会 降低 其 积极 性 ,而 且 容 易 造成 结 点 的 功利 
PE: 需要 时 便 向 邻居 结 点 提供 服务 以 得 到 好 的 服务 ,不 需要 时 便 拒绝 提供 服务 。 

客观 的 信誉 模型 实现 起 来 要 比 主管 的 信誉 模型 复杂 ,而 且 容 易 受到 攻击 和 欺骗 。 然 而 ， 
相 比 于 主观 的 信誉 模型 , 它 帮助 形成 了 更 公平 的 环境 , 结 点 即使 当前 不 需要 获得 服务 , 它 也 
可 以 提供 良好 的 服务 ,提高 自己 的 信誉 值 ,以 便 将 来 或 遇 到 新 结 点 时 能 够 得 到 更 好 的 服务 。 

4) 基于 TFT 的 机 制 

Tit-for-Tat(TFT) 是 一 种 非常 简单 的 合作 策略 : 第 一 次 交易 中 总 是 选择 合作 ,之 后 每 
次 交易 采用 的 策略 与 对 方 在 上 次 交易 中 所 采用 的 策略 (合作 或 欺骗 ) 相 同 。 正 如 R. Axelrod 
在 (The Evolution of Cooperation) 一 文 [当中 所 指出 的 那样 ,TFT 是 自我 主义 者 构成 的 无 中 
心 交 易 环 境 中 最 好 的 合作 策略 。 目 前 最 受 欢 迎 的 P2P 文件 共享 和 内 容 分 发 系统 一 
BitTorrent BT) ,就 使 用 了 这 种 动机 机 制 ,并 在 改善 公平 性 方面 取得 了 良好 的 效果 C9 。 

在 BT 中 ,TFT 策略 通过 “阻塞 (Choking)" 算 法 来 实现 。 在 一 个 Torrent( 同 一 个 文件 
的 下 载 群 ) 中 ,每 个 结 点 周期 性 地 计算 其 所 有 连接 上 的 下 载 速 度 , 并 根据 这 些 信息 ,选择 其 中 
速度 最 快 的 w( 默 认为 7) 个 连接 提供 上 载 ,其 他 连接 除了 一 个 由 “乐观 羽 通 (Optimistic 
Unchoking)” 选 定 的 之 外 ,全 部 予以 阻塞 (choke)。 乐 观 牙 通 的 目的 是 为 了 有 机 会 找到 一 个 
更 好 的 连接 。 如 果 该 连接 上 的 下 载 速度 优 于 某 个 目前 正在 提供 上 传 的 连接 , 则 这 个 新 连接 
接替 其 在 w 个 连接 中 的 位 置 ,否则 ,下 一 轮 将 以 Round-Robin 7; 3X 3& f£ 53 — 4 Z UL ff 
MEUS, 

BT 的 激励 机 制 可 以 使 尽量 多 的 有 效 连接 处 于 双向 传输 的 最 佳 利用 状态 ,并 且 , 为 了 获 
得 更 快 的 下 载 速度 ,每 个 结 点 也 会 有 足够 的 动机 在 下 载 的 同时 也 为 其 他 结 点 提供 上 传 服 务 ， 
从 而 有 效 地 减少 了 搭便 车 现象 的 发 生 。 

5) 基于 相似 性 的 机 制 

2001 年 ,R.L. Riolo 发 表 在 (Nature》 上 的 一 篇 论文 c5 提 出 了 另 一 种 合作 机 制 。 该 文 认 
为 除了 血缘 关系 和 互惠 关系 (直接 或 间接 ) 之 外 ,合作 还 可 能 会 在 “相似 ”的 实体 之 间 产 生 。 
实体 的 特征 可 以 用 “Tags” 来 表示 ,这 些 Tags 用 来 进行 相似 性 的 度量 。 参 考 文献 [26] 中 提 
出 了 一 种 将 Tags 模型 应 用 于 P2P 合作 问题 的 框架 。 
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9.1.3 信任 机 制 


P2P 网 络 是 一 种 典型 的 “开放 式 ? 网 络 环境 。 系 统 中 的 用 户 并 非 来 自 同一 个 利益 团体 ， 
任何 人 只 要 愿意 都 可 以 自由 地 加 入 和 退出 P2P 网 络 , 自 由 地 参与 资源 共享 和 交换 。 参 与 结 
点 的 身份 对 等 ,所 有 结 点 既 可 以 是 资源 或 服务 的 消费 者 ,也 可 以 是 提供 者 。 用 户 具 有 很 强 的 
自主 性 ,因此 提供 的 服务 质量 不 可 能 像 传 统 的 C/S 或 B/S 模式 那样 可 靠 , 它 们 可 以 随意 中 
止 服务 ,其 至 可 能 存在 欺诈 行为 。 另 外 ,P2P 中 的 交互 模式 是 点 对 点 的 ,个 体 间 的 交互 和 协 
作 是 系统 的 主要 业务 ,个体 行为 和 结 点 之 间 的 对 等 交互 不 被 第 三 方 直接 介入 或 监控 。 

P2P 模式 的 开放 性 、 对 等 性 、 自 主 性 和 无 监督 性 是 它 的 主要 特征 ,也 是 它 在 很 多 领域 取 
得 巨大 成 功 的 重要 原因 。 但 这 种 个 人 为 公众 提供 资源 同时 又 享受 公共 资源 而 结 点 行为 无 约 
束 的 工作 模式 ,使 P2P 网 络 中 “信任 ”极度 缺乏 ,交互 双方 很 难 判 断 对 方 的 可 信 程度 ,交互 对 
象 的 选择 具有 很 大 的 盲目 性 ,服务 质量 和 安全 也 很 难得 到 保证 。 

P2P 网 络 中 的 大 量 不 可 靠 服务 以 及 欺诈 行为 都 是 由 于 信任 缺失 而 引起 的 。 例 如 在 众多 
文件 共享 P2P 网 络 中 ,大 量 的 文件 是 伪造 的 、 未 经 授权 的 ,或 被 算 改 过 的 ,甚至 是 带 有 病毒 
的 。 而 在 类 似 于 eBay 和 淘宝 网 这 样 的 电子 商务 类 PP 系统 (广义 ) 中 ,这 种 不 可 靠 服务 和 
欺诈 行为 给 用 户 带 来 的 影响 则 更 为 严重 。 

1. 信任 概念 

信任 是 一 个 多 学 科 的 概念 ,描述 了 在 特定 的 情境 下 ,一 个 个 体 (A) 在 可 能 产生 不 利 后 果 
的 情况 下 (包括 风险 因素 ) ,愿意 相信 另 一 个 个 体 (B) 具 有 某 种 能 力 或 能 够 完成 某 项 任务 的 
主观 信念 2 ,或 该 个 体 (A) 根 据 自己 的 经 验 或 同时 参考 其 他 个 体 (C、D 等 ) 推 荐 信息 而 得 出 
的 被 信任 方 (B) 的 可 信赖 程度 。Luhmann 于 1979 年 从 社会 学 的 角度 来 描述 信任 ,将 其 定义 
为 减少 社会 复杂 性 的 方法 外。 而 这 种 复杂 性 是 由 具有 不 同 理解 力 和 目的 的 个 体 的 交互 引 
起 的 。 该 定义 由 于 其 社会 学 的 本 质 更 适合 基于 信誉 的 系统 。 另 一 个 广 为 接 受 的 定义 是 计算 
机 科学 家 Gambeta 于 1990 年 给 出 的 C9] ,他 将 信任 定义 为 个 体 评估 另 一 个 体 或 集体 将 执行 
某 一 特定 行为 的 特定 主观 可 能 性 等 级 ,评估 发 生 在 个 体能 够 观察 到 该 特定 行为 之 前 (或 该 特 
定 行为 独立 于 个 体能 够 观察 到 该 行为 的 能 力 ) 且 该 特定 行为 会 影响 评估 者 自身 的 行为 。 

Gambeta 认为 信任 不 是 一 个 门限 点 ,而 应 该 是 一 个 概率 分 布 的 概念 ,可 以 用 介 于 完全 
不 信任 (用 0 表示 ) 和 完全 信任 (用 1 表示 ) 之 间 的 值 来 表示 , 且 以 不 确定 性 为 中 点 (用 0.5 表 
示 )。 该 定义 引入 了 从 信任 方 的 角度 认识 到 的 被 信任 方 的 可 靠 性 概念 。 最 近 的 关于 信任 的 
概念 是 由 Grandison 和 Sloman 提出 的 29 ,他 们 将 信任 定义 为 对 某 一 个 体 在 特定 的 情境 下 ， 
独立 .安全 且 可 靠 地 完成 任务 的 能 力 的 坚固 信念 。Chen RE VON: 信任 是 大 多 数 人 际 关系 
的 核心 ,信任 的 因素 因 人 而 异 ,每 一 个 人 都 有 他 自己 的 意见 ,因此 信任 的 本 质 是 分 布 的 。 

与 信任 紧密 联系 的 概念 是 信誉 ,Abdul-Rehmanr3 将 信誉 定义 为 基于 观察 到 的 个 体 过 
去 行为 或 过 去 行为 的 信息 而 对 个 体 行为 的 期 望 。 可 以 看 出 ,信誉 强调 的 是 一 个 集体 对 某 一 
个 体 (或 群体 ) 的 综合 的 可 信赖 度 ,而 信任 更 多 强调 的 是 信任 个 体 对 被 信任 方 的 主观 信赖。 

2. 信任 模型 

信任 模型 (Trust Model) 是 指 建立 和 管理 信任 关系 的 框架 。 信 任 模 型 分 为 两 种 基本 类 
型 : 层次 信任 模型 .网 状 信任 模型 。 层 次 信任 模型 是 较为 简单 ,并 广泛 使 用 的 信任 模型 (如 


第 9 章 计算 安 


X. 509) ,其 优点 是 结构 简单 ,易于 管理 和 实现 ,缺点 是 信任 关系 必须 通过 根来 实现 ,层次 模 
型 适合 孤立 的 、 层 状 的 封闭 环境 。 网 状 信任 模型 中 ,每 一 个 结 点 都 可 以 作为 可 信任 根 , 结 点 
间 的 信任 路 径 可 以 构成 一 个 网 络 ,如 PGP ,网 状 信任 模型 的 优点 是 更 接近 于 人 类 社会 的 
信任 关系 ,信任 关系 易于 构建 , 且 不 依赖 于 任何 权威 中 心 。 

3. 信任 模型 的 研究 现状 

信任 模型 是 建立 和 管理 信任 关系 的 框架 。 目 前 ,P2P 信任 研究 主要 涉及 信任 量化 、 信 任 
评价 以 及 信任 的 计算 、 存 储 、 传 递 机 制 的 研究 。 相 对 于 传统 的 安全 技术 ,信任 模型 更 像 是 一 
个 不 十 分 “严格 ”的 安全 技术 。 它 不 像 一 般 的 鉴别 .认证 等 技术 ,有 一 个 明确 的 接受 或 者 拒绝 
的 标准 ,而 是 更 具有 主观 性 。 跟 传统 的 安全 技术 相 比 , 它 建立 了 一 个 类 似 人 类 社会 的 信任 评 
价 和 信誉 传递 机 制 ,能 更 好 地 处 理 安全 中 的 信任 问题 ,一 旦 和 已 有 的 安全 技术 结合 起 来 ,就 
能 对 解决 对 等 网 中 的 安全 问题 提供 较 好 的 解决 方案 。 

在 分 布 式 系统 中 ,建立 不 同 网 络 结 点 间 的 信任 关系 是 建立 系统 安全 的 一 个 基础 。P2P 
信任 机 制 主要 是 用 来 解决 如 何 选择 可 信赖 的 Peer 的 问题 的 。 信 任 问题 在 C/S 时 代 也 是 存 
在 的 ,但 是 在 C/S 时 代 构 建 信任 机 制 要 容易 得 多 ,因为 Server 处 于 中 心 位 置 ,可 以 方便 地 收 
集 Client 的 各 项 信息 。 但 是 由 于 对 等 网 络 的 特点 ,信任 模型 是 P2P 网 络 应 用 中 一 个 十 分 难 
以 解决 的 问题 。 到 目前 为 止 ,P2P 信任 机 制 已 经 成 为 一 个 活跃 的 研究 课题 ,尽管 目前 在 实际 
应 用 中 还 没有 出 现 比较 成 功 的 通用 解决 方案 ,但 国内 外 研究 者 在 信任 研究 领域 开展 了 许多 
开创 性 的 研究 工作 ,一 些 具 有 代表 性 的 研究 成 果 提 出 了 不 少 值得 借鉴 的 思路 和 方法 。 

1) 集中 式 信任 模型 

集中 式 信任 系统 主要 应 用 于 电子 商务 领域 ,在 实际 应 用 中 大 都 采用 基于 PKI 的 信任 模 
型 ,简单 地 采用 给 参与 者 评价 打分 的 方法 来 描述 信誉 度 , 采 用 简单 的 数值 计算 方式 来 实现 信 
任 的 聚合 。 

在 集中 信任 系统 中 ,存在 少数 中 心 实 体 负责 收集 网 络 参与 实体 的 历史 交易 记录 信息 , 然 
后 再 把 所 有 实体 的 信誉 评分 的 结果 公布 出 来 。 在 下 次 的 实体 交易 前 ,请 求实 体 即 可 以 通过 
参考 备 选 服务 实体 的 最 新 信誉 信息 来 加 以 选择 。 这 样 拥有 良好 信誉 的 服务 实体 会 获得 更 多 
的 提供 服务 机 会 和 回报 ,与 此 同时 诚实 可 信 的 实体 也 会 获得 更 高 的 信誉 ,从 而 抑制 网 络 中 的 
不 良 行为 ,最 终 会 促进 网 络 的 良性 发 展 。 

集中 式 信任 系统 中 ,实体 A 和 B 在 历史 交易 记录 的 基础 上 ,在 信任 系统 的 支撑 下 相互 
选择 对 方 , 因 为 双方 均 认 为 对 方 的 行为 最 可 靠 ,从 而 开始 一 次 新 的 交易 交互 。 在 每 次 交易 结 
束 后 ,实体 之 间 会 对 对 方 在 交易 中 的 行为 给 出 评价 ,信誉 中 心 会 不 断 地 收集 每 个 实体 的 评价 
信息 并 更 新 每 个 实体 的 信誉 信息 ,更 新 后 的 实体 信誉 信息 会 在 信誉 中 心 公布 。 

在 这 类 系统 中 ,中 心 实体 负责 整个 网 络 的 监督 ,定期 通告 违规 的 实体 ,中 心 实体 的 合法 
性 通过 CA 颁发 的 证 书 加 以 保证 。 这 类 系统 往往 是 中 心 依赖 的 .具有 可 扩展 性 . 单 点 失效 等 
问题 。 这 类 实际 系统 的 实例 有 eBay eDonkey 等 。 

2) 基于 局 部 推荐 的 分 布 式 信 任 模型 

在 这 类 系统 中 , 结 点 通过 询问 有 限 的 其 他 结 点 以 获取 某 个 结 点 的 信誉 度 。 一 般 采 取 简 
单 的 局 部 广播 的 手段 ,其 获取 的 结 点 信誉 度 是 局 部 的 。 如 Comelli™ X} Gnutella 的 改进 建 
议 就 是 采用 这 种 方法 。 

在 局 部 信任 模型 中 ,许多 研究 者 认为 信任 是 主观 的 ,对 同一 实体 的 可 信 度 ,不 同 的 观察 
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者 可 能 会 得 出 不 同 的 判断 。 例 如 ,在 P2P 环境 中 ,不 同 的 参与 者 可 能 会 采用 不 同 的 方法 来 
评价 其 他 参与 者 的 性 能 ,这 反映 了 不 同 用 户 对 行为 的 不 同 理解 29 (信任 的 上 下 文 相关 性 特 
征 ) 。 在 基于 推荐 的 局 部 信任 模型 中 ,参与 者 通过 询问 其 他 有 限 的 参与 者 (推荐 者 ) 来 获得 某 
个 参与 者 的 信任 度 信 息 ,从 而 形成 自身 的 信任 观点 。 目 前 基于 局 部 推荐 的 分 布 式 信任 模型 
的 主要 研究 工作 有 : 

(1) 基于 概率 的 局 部 信任 模型 。 在 信任 研究 领域 ,部 分 研究 者 认为 借助 于 概率 方法 可 
以 描述 主观 信任 ,提出 了 多 种 基于 概率 的 信任 模型 。 

参考 文献 [35] 中 采用 Bayesian 公式 对 实体 的 信任 相关 经 验 进行 了 建 模 ,提出 了 对 实体 
间 信 任 度 进行 定量 研究 的 Beth 模型 。 除 Beth 模型 外 ,参考 文献 [34] 中 还 针对 P2P 文件 共 
享 系统 ,提出 了 一 个 基于 Bayesian 网 络 的 信任 管理 模型 。 该 模型 认为 信任 来 自 于 参与 者 的 
直接 经 验 ,信誉 则 基于 其 他 参与 者 的 推荐 ,信任 都 具有 上 下 文 相 关 性 、 多 面 性 、 动 态 性 等 
特点 。 

(2) 基于 主观 逻辑 的 信任 模型 。Josang 模型 中 将 行为 的 结果 (成 功 或 失败 ) 作 为 经 
根据 二 项 事件 (Binary Event) 后 验 概率 服从 Beta 分 布 的 思想 ,提出 了 基于 主观 逻辑 
(Subjective Logic) 的 信任 度 评估 模型 来 解决 信任 的 推导 和 综合 计算 的 问题 39。 

(3) Abdul-Rahman 模型 。 与 基于 概率 的 局 部 信任 模型 不 同 ,Abdul、Rahman 4$ AU? 
认为 ,尽管 从 直观 上 看 ,信任 度 可 表示 为 某 种 概率 的 度量 ,但 问题 在 于 概率 值 只 有 以 定义 明 
确 的 可 重复 实验 为 基础 才 有 意义 ,因而 不 适 于 处 理 日 常 的 实际 经 验 。 并 且 ,基于 概率 的 模型 
仅 考 虑 了 观察 本 身 , 没 有 考虑 观察 者 。 此 外 ,概率 本 质 上 是 传递 的 ,而 信任 只 具有 弱 传 递 性 。 
Abdul-Rahman 模型 将 信任 划分 为 四 级 ,分 别 累 计 不 同 级 别 的 交易 经 验 ,并 以 此 为 基础 进行 
信任 的 评价 和 推理 。Abdul-Rahman 模型 的 不 足 之 处 在 于 其 信任 的 表示 和 推理 方法 比较 复 
杂 , 缺 乏 直观 意义 。 

(4) PeerTrust 模型 。Xiong Li 中 给 出 了 一 个 适用 于 P2P 电子 社区 的 局 部 信任 模型 , 结 
点 的 可 信 度 是 对 以 往 该 结 点 向 其 他 结 点 提供 服务 的 水 平 的 综合 评价 。 模 型 考虑 全 面 , 引 入 
了 结 点 对 交互 的 反馈 、 反 馈 的 可 信 度 、 结 点 参与 交互 的 次 数 、 交 互 的 属性 和 结 点 所 在 社区 五 
个 因素 度量 结 点 的 可 信 程 度 。 其 信任 值 的 计算 公式 为 

TG) =aX S scsi) X Cr(p(u,i)) X TF(u,i) +B X CFGO 

相关 参数 的 定义 为 : TOORA u 的 信任 值 ; Cr(v) 是 结 点 wv 的 推荐 意见 的 可 信 程度 ; 
TF DERA u Bi 次 交互 的 属性 ; CFO JEA u 所 在 社区 的 属性 ; 1(u,v) 是 结 点 w 和 
v 之 问 交 互 的 总 数 ; p(u, 站 是 结 点 4 第 i 次 交互 的 对 象 ; S(u, 让 是 归 一 化 的 结 点 的 第 i 次 
交互 后 plu, 让 对 它 的 信任 评分 ; a 是 与 交互 过 的 结 点 对 x 的 综合 评价 的 权重 ; 8 是 社区 
对 评估 的 影响 所 占 的 权重 。 

该 模型 对 实体 得 到 的 推荐 信任 进行 统计 和 分 类 计算 得 到 实体 的 信任 度 , 模 型 认为 需要 
识别 欺骗 行为 和 对 欺骗 者 进行 惩罚 , 却 没 有 提出 具体 的 方法 和 机 制 。 

(5) 其 他 局 部 信任 模型 。 除 上 述 局 部 信任 模型 外 ,其 他 研究 者 还 提出 了 基于 轮 询 投票 
的 信任 模型 。 其 中 , Damiani 等 人 基于 P2P 文件 共享 协议 Gnutella 提出 了 Damiani fi 
AUS 。 该 模型 以 Gnutella 协议 的 资源 搜索 与 响应 消息 Query 和 QueryHit 为 基础 ,提出 
了 轮 询 协议 XRep。 参 与 者 在 下 载 资源 之 前 先 请 求 其 他 实体 对 某 目 标 实体 进行 投票 ,投票 
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的 消息 采用 公 钥 技术 实现 签名 与 加 密 。 在 对 投票 结果 进行 聚集 分 析 和 challenge/response 
检查 ,排除 可 疑 投票 之 后 ,根据 其 结果 确定 是 否 访问 该 目标 实体 。 在 实际 与 目标 实体 进行 交 
易 之 后 ,还 要 更 新 目标 实体 及 投票 者 的 可 信和 度 。 

3) 基于 全 局 推荐 的 分 布 式 信任 模型 

为 获取 全 局 的 实体 可 信和 度 , 该 类 模型 通过 实体 问 相 互 满意 度 的 迭代 ,获取 实体 全 局 的 信 
JEJE, Stanford 的 EigenRep" 是 目前 已 知 的 典型 的 全 局 信任 模型 ,该 信任 模型 在 信任 问题 
研究 领域 具有 重要 的 指导 意义 ,成 为 大 部 分 研究 工作 的 参考 标准 。EigenRep 的 核心 思想 
是 : 依据 一 个 结 点 提供 的 成 功 交易 的 次 数 与 失败 交易 的 次 数 来 计算 该 结 点 的 信誉 值 。 当 结 
点 i 需要 了 解 任意 结 点 & 的 全 局 可 信和 度 时 ,首先 从 k 的 交易 伙伴 中 (曾经 与 发生 过 交易 的 
结 点 让) 来 获知 结 点 & 的 可 信和 度 信 息 ,然后 根据 这 些 交易 伙伴 自身 的 局 部 可 信和 度 ( 从 i 的 主观 
判断 角度 来 看 ) 综 合计 算出 的 全 局 可 信和 度 。 计 算 公 式 如 下 : 

T, = Ca 

式 中 ,为 结 点 全 局 的 可 信和 度 ,对 于 任意 结 点 ij Cy 为 结 点 对 结 点 7 的 局 部 信任 度 。 

Ci 计算 公式 如 下 : 

Cj = (Sat; 一 UnSaty )/ 23 (Sat; — UnSat;) 


其 中 ,Saty 和 UnSaty Sb 9129 £8 i 对 j 在 历史 交易 中 积累 的 满意 次 数 和 不 满意 次 数 。 

参考 文献 [40] 分 析 了 EigenRep 模型 存在 的 不 足 之 处 ,如 缺乏 迭代 收敛 性 保证 ,没有 考 
虑 惩罚 因素 和 网 络 性 能 开销 等 ,并 提出 了 基于 推荐 的 P2P 环境 下 的 Trust 模型 ,进行 了 相 
关 分 析 ,给 出 了 分 布 式 计算 协议 。 

4) 基于 组 群 的 P2P 信任 模型 

基于 组 群 的 P2P 信任 模型 1' 匀 以 信誉 为 基础 ,通过 将 结 点 组 织 成 组 群 来 实现 P2P 系统 
安全 控制 。 在 参考 文献 [41] 中 ,通过 计算 一 个 双 层 信誉 ,以 此 为 依据 最 终 选择 一 个 结 点 进行 
交易 ,从 而 提高 网 络 交易 的 质量 和 安全 性 。 在 该 模型 中 ,主要 是 通过 逻辑 上 的 一 个 结 点 组 来 
实现 双 层 信誉 的 ( 结 点 所 在 组 的 信誉 和 该 结 点 本 身 的 信誉 ) 。 模 型 规定 每 个 结 点 在 同一 时 间 
至 多 只 能 属于 一 个 组 。 通 过 该 结 点 所 在 组 的 信誉 和 该 结 点 本 身 的 信誉 ,可 以 判定 这 个 结 点 
是 善意 的 还 是 恶意 的 ,是 否 可 以 信任 。 一 个 结 点 的 信誉 可 以 通过 该 结 点 所 要 执行 动作 善 恶 
可 能 性 的 大 小 来 评定 ,并 且 随 着 不 同 结 点 之 间 的 交互 动态 调整 。 如 果 一 个 结 点 滥用 系统 中 
的 资源 或 者 有 自私 的 行为 ,该 结 点 将 受到 降低 信誉 的 惩罚 。 同 样 , 如 果 有 结 点 试图 通过 系统 
的 匿名 性 伪装 自己 来 攻击 其 他 用 户 或 更 改 其 他 用 户 的 路 由 信息 ,也 将 受到 惩罚 。 当 其 再 次 
试图 寻求 协作 时 ,系统 将 会 提示 这 些 结 点 是 恶意 的 。 另 一 方面 ,系统 也 将 会 给 可 靠 诚实 的 结 
点 一 个 好 的 信誉 。 当 一 个 结 点 拥有 较 高 的 信誉 时 ,该 结 点 被 认为 是 可 信任 的 ,并 且 可 以 获得 
所 在 组 的 支持 。 一 个 结 点 的 可 靠 性 越 高 ,希望 与 其 交互 的 结 点 就 会 越 多 。 模 型 采用 了 双 层 
的 信誉 模式 ,每 一 个 结 点 行为 的 好 坏 同 时 还 会 影响 所 在 组 的 信誉 ,这 样 可 以 激励 组 内 的 所 有 
成 员 相 互 监督 。 在 这 种 “监督 ”的 压力 之 下 ,每 一 个 结 点 都 必须 尽量 做 到 最 好 ,因为 只 有 这 样 
组 才 会 批准 它们 进行 交互 。 如 果 一 个 成 员 的 行为 有 损 组 的 形象 或 者 削弱 了 组 的 信誉 ,以 后 
组 内 的 其 他 成 员 将 会 拒绝 与 其 合作 ,以 此 达到 惩罚 和 警醒 其 他 成 员 的 作用 。 若 一 个 结 点 长 
期 有 不 好 的 行为 ,组 内 的 成 员 将 有 权 选 举 决定 将 其 从 组 中 除去 。 

每 个 结 点 需要 交易 时 ,总 是 率先 考虑 与 自己 同 组 的 结 点 ,其 次 是 组 信誉 度 高 的 结 点 组 中 
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的 结 点 。 提 供 文件 时 ,也 总 是 优先 为 自己 的 同 组 结 点 提供 服务 ,其 次 再 考虑 其 他 组 成 员 。 因 
此 ,游离 在 各 个 信誉 组 外 的 结 点 很 难 找到 机 会 与 其 他 结 点 交互 ,信誉 值 的 提高 也 会 很 慢 ,被 
一 个 结 点 组 接纳 需要 比较 长 的 一 段 时 间 。 但 是 如 果 恶 意 攻 击 其 他 结 点 或 是 更 改 其 他 结 点 的 
路 由 信息 ,信誉 的 下 降幅 度 却 会 很 快 ,而 且 还 有 可 能 被 踢 出 组 。 这 样 就 可 以 起 到 一 定 的 警示 
作用 ,使 结 点 珍惜 与 组 内 其 他 结 点 的 良好 关系 。 


9.1.4 文件 安全 机 制 


文件 安全 机 制 是 P2P 分 布 自 组 织 安全 体系 中 的 重要 结构 之 一 。 文 件 的 真实 性 问题 和 
文件 污染 问题 ,得 到 了 特别 的 关注 ,成 为 P2P 诸多 问题 中 关注 率 最 高 的 问题 之 一 [3 。 

在 无 中 心 的 P2P 系统 中 ,文件 的 真实 性 得 不 到 保证 ,充斥 着 大 量 的 虚假 文件 ,甚至 是 威 
胁 安 全 的 恶意 病毒 或 木马 ,这 将 严重 威胁 终端 实体 ,甚至 影响 整个 网 络 的 安全 稳定 运行 。 有 
研究 表明 ,几乎 所 有 的 热门 资源 都 有 虚假 文件 ,而 且 比 想象 的 多 得 多 。 一 些 虚假 文件 的 传播 
量 甚至 远大 于 真实 文件 ,这 不 仅 极 大 地 浪费 了 网 络 带 宽 , 给 网 络 系统 带 来 严重 威胁 ,对 于 依 
靠 大 量 用 户 支撑 的 P2P 网 络 来 说 问题 相当 严重 。 

对 于 文件 污染 问题 ,是 指 在 P2P 文件 共享 系统 中 ,恶意 结 点 发 布 与 指示 主题 不 相符 合 
的 文件 内 容 , 并 通过 P2P 文件 共享 进行 传播 。 文 件 污染 问题 给 P2P 文件 共享 造成 了 很 大 的 
危害 : 首先 ,如 果 用 户 频繁 遭遇 污染 文件 ,其 感受 到 的 可 用 性 会 急剧 降低 ,其 至 最 终 放弃 使 
用 该 系统 ; 其 次 , 它 为 病毒 .蠕虫 等 恶意 程序 的 传播 提供 了 便利 ,造成 了 网 络 安全 上 的 隐患 。 

对 P2P 网 络 的 实际 测量 数据 表明 5 ,现实 存在 的 文件 污染 现象 十 分 普遍 ,尤其 是 对 于 
最 近 流 行 的 内 容 。 在 FastTrack/KaZaA , eDonkey, Overnet 等 P2P 系统 中 ,有 半数 流行 内 
容 的 拷贝 是 被 污染 的 或 是 仿造 的 。 

1. 文件 真实 性 概述 

对 等 网 络 文件 真实 性 是 指 : 在 对 等 网 络 中 对 于 某 请 求 结 点 的 文件 查询 消息 ,会 有 不 确 
定数 量 的 应 答 结 点 给 予 应 答 ,确定 哪些 应 答 是 满足 条 件 的 真实 的 文件 ,这 就 是 确定 对 等 网 络 
文件 的 真实 性 。 举 例 来 说 ,如 果 一 个 结 点 发 起 一 个 “国富 论 ” 的 查询 ,结果 收 到 三 个 应 答 ,这 
些 应 答 中 哪 一 个 是 真实 的 呢 ? 应 答 之 一 可 能 恰好 是 亚当 ,斯 密 所 著 的 《国富 论 》。 另 外 的 一 
个 应 答 可 能 是 修改 了 几 个 关键 段落 的 亚当 。 斯 密 的 《国富 论 )》。 第 三 个 应 答 可 能 是 某 个 网 络 
写 手 对 《国富 论 ) 的 恶搞 作品 ,该 作品 的 名 字 也 被 命名 为 《国富 论 )。 判 断 这 些 应 答 哪个 是 真 
实 文件 的 过 程 就 是 文件 真实 性 确定 。 

文件 真实 性 是 对 等 网 络 的 一 个 安全 要 求 ,然而 到 目前 为 止 , 收 到 的 关注 并 不 是 很 多 ， 
Daswani 等 提出 过 对 等 网 络 文件 真实 性 认证 的 公开 问题 ,他 们 在 参考 文献 [45] 中 列举 了 四 
种 不 同 的 判断 文件 真实 性 的 标准 。 

第 一 个 判断 的 准则 是 “最 古老 的 文件 是 真实 的 ”。 这 种 定义 认为 最 早 提交 到 系统 中 的 文 
档 是 真实 副本 。 举 例 来 说 ,如 果 亚 当 。 斯 密 是 (国富 论 》 的 作者 并 第 一 个 向 系统 提交 了 这 个 
文档 ,那么 他 的 文档 就 被 认为 是 “国富 论 ” 这 一 查询 的 真实 文档 。 任 何在 此 之 后 提交 的 名 为 
“国富 论 ” 的 文档 都 被 认为 是 查询 的 非 真 实 回 应 。 利 用 时 截 机制 的 方法 可 以 帮助 这 种 系统 确 
立 文件 的 真实 性 。 然 而 可 以 看 出 来 ,这 种 机 制 往往 太 机 械 简 单 。 

第 二 个 判断 的 标准 是 以 专家 为 基础 确认 文件 真实 性 。 在 这 种 方式 中 ,一 份 文件 签名 如 
果 经 过 了 专家 或 权威 结 点 的 真实 性 确认 ,就 被 认为 是 真实 的 。 比 如 , 结 点 A 是 一 个 可 信 中 


211 
第 9 章 计算 安 


心 , 他 提供 对 签名 的 确认 。 当 结 点 收 到 查询 请 求 的 回应 后 ,他 可 以 与 这 个 可 信 中 心 A 通信 ， 
用 结 点 A 中 的 记录 来 确认 签名 的 真实 性 。 其 实 这 种 方式 是 借鉴 了 C/S 模式 的 集中 管理 原 
理 ,可 信 中 心 结 点 A 实际 上 就 是 一 个 确认 真实 性 的 服务 器 。 这 种 机 制 存 在 着 相当 大 的 局 
限 , 如 果 结 点 A 暂时 或 永久 失效 ,被 攻击 者 入 侵 控制 甚至 A 本 身 就 是 一 个 恶意 结 点 ,那么 文 
件 的 真实 性 就 根本 得 不 到 保障 了 。 这 是 一 个 单 点 失效 的 问题 。 

第 三 个 判断 的 标准 是 基于 信誉 确认 文件 真实 性 。 在 现实 生活 中 ,在 一 个 领域 有 很 多 专 
家 教授 ,但 是 他 们 对 这 个 领域 的 造 放 是 有 高 低 之 分 的 ,有 的 专家 教授 的 观点 更 加 权威 可 信 ， 
有 的 则 次 之 。 与 在 现实 生活 一 样 ,一些 专家 结 点 可 能 比 另 一 些 专家 结 点 更 可 信 , 可 以 在 投票 
中 加 大 可 信 专 家 选票 的 权重 。 这 种 权重 要 由 一 个 完整 的 信誉 机 制 来 提供 ,这 种 机 制 要 能 保 
持 、 更 新 ,传播 信誉 值 。 现 在 已 经 有 一 些 信誉 机 制 的 研究 ,但 至 今 仍 没有 一 个 成 功 地 被 商业 
界 利用 。 

第 四 个 判断 文件 真实 性 的 准则 是 基于 投票 来 确认 文件 真实 性 。 为 了 解决 前 面 第 二 个 方 
案 中 信任 中 心 结 点 A 的 单 点 失效 问题 ,这 种 方案 用 投票 的 方法 让 许多 专家 对 文件 签名 的 真 
实 性 进行 确认 ,只 需 一 部 分 专家 认同 就 认为 文件 是 真实 的 。 这 就 不 再 有 单 点 失效 的 问题 。 

2. 文件 真实 性 确认 协议 

Ernesto Damiani 等 人 设计 了 XREP 协议 9 ,是 一 种 具有 代表 性 意义 的 文件 真实 性 确 
认 协 议 ,XREP 提出 了 结合 文件 信誉 度 (Reputation) 和 参与 结 点 的 信誉 度 来 确定 对 等 网 络 
文件 真实 性 的 机 制 。 在 这 种 机 制 里 ,系统 的 每 个 参与 结 点 拥有 一 个 结 点 标识 符 servent_id 
(一 般 是 用 该 结 点 的 公 钥 进行 哈 希 计算 得 到 的 ) ,每 个 文件 拥有 一 个 文件 标识 符 resource. id 
(一 般 就 是 把 文件 内 容 进 行 哈 希 计算 得 到 的 )。 每 个 参与 结 点 都 有 一 个 经 验 库 (Experience 
Repository) ,记录 对 文件 和 其 他 通信 结 点 的 某 些 历史 评价 信息 ,如 用 二 元 组 (resource_id， 
value) 记 录 文 件 的 信誉 度 ,value 以 某 种 方法 对 文件 的 评价 值 ; 用 三 元 组 (servent_id,num_ 
plus,num_minus) 记 录 结 点 的 信誉 度 ,其 中 ,num_plus 是 在 结 点 上 成 功 下 载 文 件 的 次 数 ， 
num minus 是 在 结 点 上 文件 下 载 不 成 功 的 次 数 。 对 结 点 的 投票 可 以 根据 不 同 的 标准 ,比如 
说 一 个 简单 的 方法 是 , 某 结 点 只 对 成 功 下载 次 数 为 0Cnum_plus=0) 的 其 他 结 点 给 下 面 评 
价 。 整 个 搜索 .投票 和 下 载 的 过 程 具体 可 分 为 五 个 阶段 ; 

1) 搜索 资源 

发 起 者 I 以 类 Gnutella 形式 的 泛 洪 方式 向 所 有 邻居 结 点 发 送 查 询 消息 Query。 形 如 
Query(search_string,min_speed) ,系统 中 的 结 点 在 收 到 查询 消息 后 立刻 查看 本 地 是 否 有 符 
合 查 询 请 求 的 文件 内 容 , 如 果 有 ,就 按照 查询 消息 的 发 送 路 径 返 回 一 个 查询 响应 消息 。 形 如 
QueryHit(num_hit,IP,port,speed,Result,trailer,servent_id) ,包括 响应 者 结 点 标识 符 、 查 
询 到 的 文件 名 和 其 他 信息 组 成 的 结果 集 Result、 匹 配 查询 请 求 的 文件 数量 、 网 速 和 (IP， 
port) 对 。 

2) 选择 资源 和 发 起 投票 

根据 上 一 步 返回 的 查询 响应 结果 ,发 起 者 I 在 收 到 的 Query Hit 中 根据 响应 者 的 信息 选 
择 一 个 资源 和 一 定数 量 的 资源 x 的 提供 者 组 成 集合 T 一 {Si ,Ss ,…,S,) ,这 种 选择 可 以 取 
决 于 请 求 者 的 个 人 喜好 和 同 种 资源 提供 者 的 人 数 。I 产 生 一 对 密 钥 对 (PKpoll,SKpoll) , 然 
后 将 发 起 投票 的 消息 Poll, (S; S; ,…,S,} ,PKpolD) 以 类 Gnutella 的 方式 泛 洪 出 去 ,由 此 
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发 起 投票 。 系 统 中 的 结 点 收 到 发 起 投票 消息 以 后 ,检查 它们 的 经 验 库 ,根据 对 文件 和 结 点 的 
记录 产生 投票 ,投票 用 I 的 公 钥 加 密 按 照 投票 发 起 消息 的 发 送 路 径 返 回 给 请 求 者 。 形 如 
PollReplyC( IP. port. votes) ) ,PKpoll)) ,用 公 钥 加 密 有 两 个 目的 ,其 一 是 防止 消息 在 传输 过 
程 中 被 人 恶意 窜改 ,其 二 是 保证 投票 和 投票 者 的 机 密 性 ,不 让 攻击 者 发 现 投票 者 和 票 的 
关联 。 

3) 统计 票数 和 核实 投票 

根据 上 一 阶段 收集 的 PollReply, 发 起 者 1 先 用 私 钥 Skpoll 解密 发 现 被 窜改 过 的 票 并 且 
将 其 丢弃 ,再 根据 IP 地 址 排除 派系 。 然 后 在 排除 派系 后 的 所 有 投票 者 中 选择 一 个 投票 者 子 
集 V', 再 用 (IP,port) 向 每 一 个 投票 者 v; Co; ETE V po 直接 发 起 投票 核实 请 求 消 息 
TrueVote, 要 求 v; 向 I 发 送 核心 信息 TrueVoteReply(response) 核 实 投票 。 经 过 核实 ,I 相 
信 某 些 投 票 , 丢 弃 那 些 没有 回复 和 没有 通过 核实 的 投票 。 

4) 选择 资源 提供 者 并 检查 其 可 用 性 

请 求 者 根据 从 阶段 3) 中 确定 的 可 信 投 票选 择 一 个 信誉 度 最 高 的 资源 结 点 作为 资源 提 
供 者 S。 然 而 在 资源 下 载 之 前 ,必须 要 核实 资源 提供 者 S 的 身份 ,因为 要 防止 其 他 结 点 利用 
该 资源 提供 者 S 的 servent ids 冒充 S 提供 资源 下 载 。 这 个 阶段 的 过 程 是 : 发 起 者 1 发 送 确 
认 请 求 AreYou(server_ids,r) 给 资源 提供 者 结 点 ,要求 该 结 点 作出 应 答 , 收 到 确认 请 求 的 结 
点 用 自己 的 私 钥 SKs 加 密 确 认 消 息 后 ,连同 自己 的 公 钥 PKs 一 同 发 送 给 请 求 者 。 形 如 
AreYouReply([response]SKs,PKs) ,请 求 者 收 到 AreYouReply 后 用 PKs fit && [ response] 
SKs, 得 到 确认 结果 ,然后 把 PKs 作 哈 希 计 算 。 如 果 哈 希 计算 的 结果 是 server_ids, 则 证 明 发 
起 者 1 是 在 和 真正 的 资源 提供 者 S 通信 。 

5) 下 载 资源 

发 起 者 I 直接 与 资源 提供 者 S 通信,download(r) 要 求 下 载 资源 。 下 载 后 请 求 者 会 计算 
文件 内 容 的 摘要 以 确定 完整 性 。 最 后 发 起 者 1 更 新 经 验 库 中 资源 和 资源 提供 者 的 记录 。 

由 以 上 对 五 个 阶段 的 分 析 可 知 ,整个 机 制 可 以 防止 攻击 者 修改 投票 ,能 够 发 现 和 排除 派 
系 选票 ,还 能 有 效 地 挫败 攻击 者 假冒 资源 提供 者 。 像 Gnutella 网 络 一 样 ,系统 具有 短 规 律 
(Power Law) 特 性 , 即 热门 一 些 的 文件 会 比 不 热门 的 文件 更 频繁 地 被 搜索 到 ,对 它们 的 投票 
也 会 多 一 些 。 而 且 少 数 结 点 有 较 高 的 度 ,多 数 结 点 的 度 较 低 , 因 此 少数 结 点 将 提供 多 数 的 资 
源 下 载 。 

3. P2P 文件 污染 概述 

所 谓 文件 污染 是 指 P2P 文件 共享 网 络 中 的 恶意 用 户 , 可 称 之 为 “污染 者 ”, 将 虚假 甚至 
含有 恶意 内 容 的 文件 贴 上 某 些 热门 内 容 的 标签 进行 发 布 , 诱 骗 其 他 用 户 下 载 ,并 利用 P2P 
网 络 的 自由 共享 功能 进行 更 广泛 散播 的 现象 。 

P2P 文件 污染 的 危害 主要 有 三 方面 : 一 是 降低 了 网 络 内 共享 资源 的 可 用 性 ; 二 是 破坏 
了 安全 和 互利 的 共享 资源 环境 ; 三 是 为 病毒 .蠕虫 的 传播 提供 了 便利 。 由 于 现 有 的 PP x 
件 共享 网 络 普遍 缺乏 准 入 控制 和 内 容 管 理 机 制 , 所 以 ,污染 者 可 以 像 正 常用 户 一 样 自 由 地 发 
布 和 共享 任何 内 容 。 再 加 上 P2P 网 络 中 文件 传播 往往 是 “一 传 十 \ 十 传 百 ”, 而 用 户 的 行为 
又 具有 很 强 的 自主 性 ,很 难 加 以 管理 .因此 ,文件 污染 一 旦 发 生 ,将 很 难得 到 有 效 的 控制 。 

P2P 文件 污染 最 初 是 版 权 组 织 为 了 破坏 版 权 文件 在 P2P 网 络 上 的 非法 传播 而 采取 的 
一 种 比较 消极 的 技术 手段 。 从 2002 年 起 ,一 些 公司 便 开始 雇佣 P2P 污染 者 ,在 各 P2P 网 上 
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布 满 其 试图 保护 的 音乐 .电影 .软件 的 假冒 伪劣 版 本 ,和 欲 使 这 些 网 络 瘫 珊 。 例 如 当时 最 著名 
的 专业 P2P 污染 公司 Overpeer. 就 曾经 于 2003 年 成 功 地 使 当时 最 受 欢迎 的 Kazaa/ 
FastTrack 网 络 上 被 污染 的 文件 占 到 总 文件 数量 的 一 半 以 上 。 虽 然 从 这 些 年 的 数据 来 看 ， 
这 一 技术 并 未 真正 达到 版 权 保护 的 作用 ,但 它 对 P2P 文件 共享 系统 造成 的 影响 却 吹 响 了 
P2P 系统 中 内 容 安 全 对 抗战 的 号 角 ,并 必 将 引发 更 大 范围 内 不 同 目的 性 的 文件 污染 和 对 抗 
以 及 更 多 的 内 容 安全 问题 。 因 此 ,在 现 阶段 分 析 讨 论 和 防范 文件 污染 不 仅 是 个 有 关 版 权 的 
议题 ,更 是 应 对 未 来 P2P 系统 中 将 要 不 断 涌现 的 内 容 安全 问题 的 一 种 必要 的 准备 。 

4. 文件 污染 方式 

文件 污染 一 般 是 针对 某 些 选 定 的 关键 词 进行 的 。 文 件 污染 者 有 如 下 三 种 污染 方式 可 以 
选择 co 。 

1) 索引 污染 

最 简单 的 文件 污染 方式 是 “索引 污染 ”, 即 在 P2P 网 络 的 索引 服务 系统 中 注入 大 量 虚 假 
的 记录 ,这 些 记录 指向 不 存在 的 版 本 /副本 。 当 用 户 按照 这 些 记录 的 指示 尝试 下 载 时 ,将 得 
到 ”无 法 连接 ?的 提示 。 如 果 注 入 的 虚假 索引 记录 足够 多 ,那么 没有 耐心 的 用 户 可 能 在 几 次 
失败 的 尝试 之 后 放弃 下 载 的 努力 。 

索引 污染 既 可 以 针对 版 本 也 可 以 针对 副本 。 它 与 普通 的 版 本 污染 和 副本 污染 的 不 同 之 
处 在 于 ,污染 者 注入 网 络 中 的 索引 记录 指向 并 不 存在 的 对 象 , 因 此 污染 者 并 不 需要 拥有 强大 
的 污染 服务 器 来 提供 大 量 的 上 传 服务 。 

2) 副本 污染 

所 谓 副本 污染 , 指 的 是 污染 者 声称 自己 存 有 某 个 正确 版 本 的 副本 ,但 实际 上 传 给 下 载 者 
的 却 是 错误 的 数据 。 如 果 这 种 污染 者 足够 多 ,那么 ,即使 下 载 者 能 够 挑选 出 正确 的 版 本 ,一 
旦 误 选 这 些 污染 者 作为 下 载 源 ,也 会 浪费 大 量 的 时 间 精 力 和 网 络 带 宽 。 

这 种 污染 方式 要 求 污染 者 拥有 强大 的 污染 服务 器 来 提供 大 量 的 上 传 服务 。 

3) 版 本 污染 

最 复杂 也 是 危害 性 最 大 的 文件 污染 方式 是 版 本 污染 。 实 施 版 本 污染 的 污染 者 首先 针对 
一 个 (或 同时 针对 多 个 ) 目 标 关键 词 制造 出 大 量 含有 恶意 或 错误 内 容 的 污染 版 本 。 然 后 污染 
者 将 这 些 版 本 的 索引 信息 注入 目标 P2P 网 络 ,并 在 其 污染 服务 器 上 提供 大 量 可 供 下 载 的 副 
本 。 如 果 没 有 有 效 的 识别 措施 和 管理 机 制 , 网 络 中 的 用 户 在 搜索 相关 主题 时 就 很 容易 被 这 
些 具 有 大 量 可 下 载 副 本 的 污染 版 本 所 吸引 。 一旦 下载 了 污染 版 本 而 又 没有 及 时 加 以 检验 ， 
一 般 用 户 很 可 能 将 该 版 本 的 本 地 副本 设置 为 共享 .并 提供 给 其 他 用 户 下 载 。 如 此 一 来 ,污染 
版 本 将 在 网 络 中 广泛 的 传播 开 来 ,甚至 会 超过 了 正确 版 本 的 副本 数量 ,最 终 将 正确 副本 淹没 
在 污染 副本 中 ,使 得 该 主题 资源 变 得 不 可 用 。 

P2P 共享 文件 的 污染 版 本 有 很 多 不 同 的 表现 形式 ,例如 ,对 于 MP3 歌曲 文件 ,污染 者 可 
以 采用 截 短 、 插 和 噪声、 插入 不 可 解码 的 数据 片断 甚至 插入 辱骂 词句 等 方式 来 制造 污染 版 
本 ,而 对 于 可 执行 文件 , 则 可 能 是 插入 蠕虫 .木马 等 恶意 代码 。 由 于 P2P 网 络 中 共享 资源 的 
多 样 性 ,对 文件 版 本 的 好 坏 ,很 难 有 有 效 的 自动 识别 措施 。 因 此 ,版 本 污染 具有 很 强 的 隐蔽 
性 ,大 多 数 情况 下 只 能 依靠 人 工 的 识别 。 正 是 这 种 人 工 识别 的 滞后 性 ,使 得 P2P 网 络 中 被 
污染 的 文件 版 本 不 仅 可 以 通过 污染 服务 器 直接 散发 ,还 可 以 通过 正常 用 户 的 共享 行为 得 到 
更 加 广泛 和 迅速 的 传播 。 
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以 上 三 种 污染 方式 可 能 单独 使 用 ,也 可 能 结合 起 来 形成 更 为 复杂 和 隐蔽 的 复合 式 污染 
方式 。 需 要 指出 的 是 ,索引 污染 只 会 降低 资源 可 用 性 而 不 会 引入 有 害 内 容 , 副 本 污染 虽然 可 
能 引入 有 害 内 容 , 但 很 容易 通过 校 验 码 等 简单 的 机 制 加 以 识别 (目前 的 P2P 文件 共享 网 络 
大 都 采用 了 这 种 机 制 ) ,因此 这 两 种 污染 方式 单独 使 用 时 危害 性 相对 较 小 。 对 P2P 共享 社 
区 的 内 容 安全 威胁 最 大 的 是 版 本 污染 ,这 种 污染 方式 需要 特别 的 关注 。 以 下 除非 特别 指出 ， 
提 到 “文件 污染 ”的 地 方 都 是 特 指 版 本 污染 。 

由 于 现 有 的 P2P 文件 共享 网 络 普 遍 缺 乏 准 入 控制 和 内 容 管理 机 制 ,所 以 ,污染 者 可 以 
像 正 常用 户 一 样 自由 地 发 布 和 共享 任何 内 容 。 再 加 上 P2P 网 络 中 文件 传播 往往 是 “一 传 
十 ,十 传 百 ”, 而 用 户 的 行为 又 具有 很 强 的 自主 性 ,很 难 加 以 管理 ,因此 ,文件 污染 一 旦 发 生 ， 
一 般 很 难得 到 有 效 的 控制 。 最 终 的 后 果 是 造成 P2P 网 络 中 充斥 大 量 不 可 用 的 甚至 是 有 害 
的 索引 信息 、 文 件 版 本 或 文件 副本 ,从 而 引起 有 害 内 容 的 扩散 和 资源 可 用 性 的 降低 ,并 最 终 
造成 用 户 的 流失 。 

5. 文件 安全 研究 现状 

P2P 文件 污染 的 报道 最 早出 现 于 2002 年 ,美国 的 Overpeer 公司 曾经 成 功 地 使 当时 最 
受 欢迎 的 Kazaa 网 络 上 被 污染 的 文件 占 到 总 文件 数量 的 一 半 以 上 23 。 学 术 界 对 这 一 现象 
的 研究 从 2005 年 开始 。 参 考 文献 [44] 中 最 先 对 P2P 文件 污染 进行 了 正式 的 描述 ,随后 , 文 
件 污 染 问题 开始 引起 更 多 研究 者 的 关注 。 根 据 关注 角度 和 研究 方法 的 不 同 ,目前 学 术 界 对 
P2P 文件 污染 的 研究 工作 大 致 可 以 分 为 以 下 三 类 。 

第 一 类 是 对 现 有 P2P 网 络 中 的 文件 污染 现状 的 测量 分 析 。 例 如 : 参考 文献 [44] 对 
Kazaa 网 络 中 的 文件 污染 进行 了 详细 的 测量 .统计 和 分 析 ; 参考 文献 [48] 侧 重 于 eDonkey 
网 络 ; 参考 文献 [49] 侧 重 于 BitTorrent 网 络 ; 参考 文献 [43] 同 时 对 eDonkey、KaZaa、 
Gnutella 和 OverNet 这 几 种 流行 的 P2P 网 络 上 的 内 容 可 用 性 和 污染 问题 进行 了 广泛 深入 
的 测量 和 分 析 。 这 些 测 量 分 析 很 好 地 揭示 了 P2P 网 络 中 污染 文件 的 静态 空间 分 布 ,但 大 多 
并 不 能 揭示 出 污染 扩散 过 程 的 动态 时 间 演 化 规律 。 

第 二 类 是 对 P2P 环境 中 文件 污染 问题 的 抽象 和 建 模 研 究 。 参 考 文献 L50] 中 的 P2P X 
件 传播 模型 借鉴 了 疾病 传播 的 K-M(CKermack-Mckendrick) 模 型 。 作 者 用 他 们 的 模型 分 析 
了 单个 版 本 文件 的 传播 规律 ,并 推导 出 保证 传播 成 功 的 “离开 率 ” 门 限 。 他 们 还 通过 仿真 实 
验 分 析 了 两 个 版 本 (一 个 正常 ,一 个 被 污染 ) 的 竞争 传播 。 参 考 文献 [51] 采 用 了 类 似 的 方法 
为 P2P 病毒 和 文件 污染 散播 建 模 ,还 考察 了 结 点 动态 进出 系统 的 影响 ,以 及 信誉 系统 的 作 
用 。 参 考 文献 [52] 中 的 模型 较为 简略 ,基本 上 遵循 了 相同 的 思路 。 但 该 文中 对 用 户 行为 的 
问卷 分 析 结 果 提 供 了 非常 有 参考 价值 的 两 个 结论 , 即 同一 用 户 对 不 同类 型 的 污染 所 具有 的 
警觉 性 可 能 是 不 同 的 ,而 不 同 用 户 对 同样 的 污染 也 可 能 具有 不 同 的 警觉 性 。 

第 三 类 研究 工作 的 主要 内 容 是 探讨 如 何 防治 P2P 文件 污染 或 者 对 污染 内 容 的 扩散 进 
行 控制 。 由 于 P2P 文件 污染 现象 出 现 的 历史 短 ,规模 大 、 情 况 复杂 多 变 , 所 以 这 一 类 研究 工 
作 大 多 是 尝试 和 探讨 ,并 没有 得 到 广泛 公认 的 成 功 先例 。 讨 论 较 多 的 一 种 方案 是 针对 共 
享 文件 的 内 容 可 用 性 而 建立 的 “对 象 信誉 系统 ”, 关 于 这 种 方案 的 细节 可 以 参见 参考 文 
献 [53]。 
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9.2. 云 计 算 平 台 相 关 技术 


9.2.1 研究 背景 


随 着 计算 机 软 ,硬件 技 术 的 高 速 发 展 ,新 的 计算 模式 也 相继 出 现 , 继 分 布 式 计算 、 并 行 计 
算 、 网 格 计算 、 效 用 计算 等 概念 的 发 展 ,又 出 现 了 一 种 新 的 计算 模式 一 一 云 计算 。 云 计算 
的 演进 过 程 如 图 9-1 所 示 。 云 计算 是 将 网 络 中 的 计算 资源 整合 起 来 形成 超大 规模 的 资源 
池 , 以 服务 的 形式 按 需 提供 给 用 户 , 它 既是 一 个 学 术 概念 又 是 一 个 商业 概念 3] 。 


云 计算 的 演进 
一 一 云 计算 
将 软件 作为 服务 。 .下 一 代 的 因特网 计算 
公用 计算 .基于 网 络 预订 
网 格 计算 nn 于 网 络 
将 计算 资源 作为 可 ， ”应 用 程序 NEN . 
TN 计量 的 服务 提供 F 一 代 的 数据 中 必 
解决 大 型 问题 ES 
.于 20 世 纪 90 年 代 未 
* Globus Alliance e HENERK 
使 其 成 为 主流 
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云 计算 的 概念 自 2007 年 被 提出 以 后 ,就 成 为 国内 外 计算 机 网 络 技 术 研 究 的 一 个 热点 。 
目前 已 有 IBM、Google、Amazon 及 微软 等 业界 的 一 些 巨 头 公 司 开 始 提 供 云 计算 服务 了 。 云 
计算 几乎 成 为 所 有 IT 业内 巨头 的 主要 发 展 战略 之 一 中] 。 

云 计 算 将 计算 推 到 了 云 中 ,也 将 人 们 的 日 常生 活 与 “ 云 ” 紧 密 联系 在 一 起 。 因 为 云 计算 
从 一 开始 定位 的 服务 对 象 就 是 所 有 普通 用 户 , 可 以 是 个 人 ,也 可 以 是 商业 性 质 的 企业 或 组 
织 W3'9。 这 就 意味 着 云 计 算 具 有 无 限 商 业 潜 力 , 所 以 云 计算 的 概念 一 经 提出 ,马上 获得 了 
众多 IT 企业 (尤其 是 一 线 IT 企业 ) 的 高 度 关注 ,并 迅速 发 展 成 为 转变 传统 计算 模式 的 一 种 
革新 技术 。Amazon 公司 的 弹性 计算 云 (Amazon Elastic Compute Cloud,EC2) 与 简单 存储 
服务 (Simple Storage Service. S3) IK zz i $E A — 47 1802] 3 (99792 。 

云 计算 是 对 传统 计算 模式 的 一 次 革新 ,同时 也 是 对 计算 机 的 服务 商业 模式 进行 的 一 次 
改革 5 。 在 传统 的 计算 模式 中 ,用 户 需要 自己 管理 复杂 的 计算 机 硬件 和 软件 资源 。 而 通过 
云 计 算 ,用 户 只 需要 关注 自己 需要 什么 类 型 的 服务 。 将 应 用 服务 与 计算 资源 分 开 可 以 很 大 
程度 上 降低 用 户 信息 化 的 复杂 度 。 云 计算 的 资源 整合 大 大 提高 了 计算 资源 的 利用 ,同时 能 
够 屏蔽 底层 资源 的 出 错 问 题 *'%3。 

图 9-2 是 一 个 典型 的 云 计算 架构 的 示意 图 。 从 图 中 可 以 看 出 ,用 户 端 只 需要 简单 的 终 
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端 设 备 ( 如 个 人 计算 机 、 笔 记 本 电脑 .PDA、 手 机 等 ) 就 可 以 通过 Internet 访问 到 * 云 ”中 超大 
规模 的 计算 和 存储 资源 。 用 户 管理 层 是 用 户 与 “ 云 ”交互 的 接 入 口 ,用 户 通过 用 户 管 理 层 接 
入 到 “ 云 ” 中 , 云 计算 服务 提供 商 通 过 用 户 管理 层 对 用 户 进行 接 入 并 进行 访问 控制 管理 等 。 
服务 层 将 云 中 的 各 种 资源 管理 起 来 并 组 织 成 相应 的 服务 (比如 存储 、 软 件 即 服务 .平台 即 服 
务 等 ) 提 供给 用 户 。 虚 拟 资源 层 是 将 经 过 虚拟 化 的 资源 进行 整合 管理 ,然后 提供 给 服务 层 以 
供 分 配 。 资 源 虚 拟 层 是 使 用 虚拟 化 技术 对 各 种 计算 资源 进行 虚拟 化 处 理 , 使 得 用 户 不 必 再 
关心 真实 物理 机 的 位 置 维护 等 问题 。 在 云 计算 架构 的 底层 是 物理 资源 层 , 它 是 整个 云 计 算 
平台 的 基础 ,存放 着 真正 的 物理 资源 。 通 过 引入 虚拟 化 , 云 计算 使 得 用 户 不 必 再 关心 对 物理 
主机 的 维护 ,管理 以 及 优化 问题 了 ,从 而 把 用 户 从 繁琐 、 复 杂 的 计算 机 资源 管理 中 解脱 了 


i Sete 


| 


用 户 管理 层 (访问 控制 ) 


服务 层 (服务 部 署 ) 


虚拟 资源 层 (虚拟 主机 ) 
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图 9-2 云 计算 架构 


因为 云 计算 巨大 的 商业 前 景 ,目前 各 大 计算 机 巨头 公司 纷纷 加 入 到 云 计算 的 行列 中 
来 ,比如 Microsoft, Google, Amazon, IBM 等 主流 IT 企业 都 开始 提供 云 计 算 服 务 平台 
比如 Google 公司 的 Google App, Microsoft 公司 的 Azure, Amazon 公司 的 EC2 和 S3, IBM 
的 Blue Cloud 等 。 表 9-1 中 总 结 了 各 大 公司 和 他 们 推出 的 云 计 算 产 品 及 相关 的 研究 
项 目 。 
表 9-1 云 计算 提供 商 及 其 产品 


“DBM 提供 商 硬件 环境 软件 环境 提供 服务 类 型 
EC2 Amazon | x86 N/A Web 服务 
Blade C. X 
Blue Cloud IBM peni enter 和 Xen | powerVM 和 Hadoop | IT 服务 部 署 
Google Apps Google Google Cluster MapReduce BigTable | 在 线 应 用 
Cloud Ware 3Tera x86 Linux 虚拟 数据 中 心 
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续 表 
“DBR 提供 商 硬件 环境 软件 环境 提供 服务 类 型 
EUCALYPTUS UCSB x86 Linux/Xen 虚拟 主机 与 服务 租赁 
Network. com SUN x86 Sod 高 性 能 计算 
Compute utility 

SkyDrive Microsoft | N/A Windows Live 在 线 存 储 
XDrive AOL N/A Windows Live 在 线 存储 
VCloud VMware | x86 VMware 虚拟 数据 中 心 
Daoli EMC x86 Xen and CHAOS 云 计算 研究 


目前 阶段 的 云 计算 主要 提供 以 下 服务 x 

CD 软件 即 服务 (Software as a Service, SaaS): 目前 使 用 的 软件 基本 上 都 安装 并 运行 
于 个 人 或 单个 组 织 的 计算 机 中 ,软件 的 安装 .版 本 升级 补丁、 维护 等 都 必须 要 由 用 户 自 己 来 
进行 ,而 且 用 户 物理 位 置 的 改变 需要 将 计算 资源 复制 携带 ,所 以 移动 性 很 差 。 云 计算 提供 的 
软件 即 服务 使 得 用 户 可 以 在 网 络 环境 下 不 受 时 间 和 地 理 位 置 限制 ,使 用 软件 提供 的 服务 , 同 
时 用 户 不 必 关 心 与 服务 无 关 的 软件 管理 与 维护 问题 。“Google App? 就 是 一 个 典型 的 例子 。 

(2) 平台 即 服务 (Platform as a Service. PaaS) iit Internet 将 操作 系统 和 相关 服务 发 
送 给 客户 ,而 客户 并 不 需要 下 载 或 安装 就 可 以 使 用 , 它 是 软件 及 服务 的 进一步 扩展 。 平 台 即 
服务 形式 的 云 计 算是 将 开发 环境 作为 一 种 服务 来 提供 给 用 户 。 使 用 户 可 以 使 用 云 计算 服务 
提供 商 的 开发 环境 来 开发 自己 的 程序 ,然后 通过 互联 网 和 服务 器 再 回 传 到 用 户 处 。 从 节省 
成 本 的 角度 考虑 ,中 小 企业 可 以 通过 租赁 的 方式 从 云 计 算 平 台中 获得 所 需要 的 资源 。 客 户 
只 需要 利用 云 计算 提供 的 PaaS 就 能 够 建立 、 检 测 和 部 署 自己 的 应 用 程序 ,不 再 需要 购买 硬 
件 和 软件 ,与 传统 的 计算 模式 相 比 ,PaaS 的 最 大 的 优势 就 在 于 开发 相同 的 应 用 所 需要 的 花 
费 要 节省 很 多 。 

(3) 基础 设施 服务 (Infrastructures as a Service,1aaS) 将 基础 设施 出 租 ,这 主要 归功 于 
虚拟 计算 机 的 快速 计算 能 力 和 稳定 的 存储 能 力 。 云 计算 的 基础 设施 服务 层 相 当 于 提供 了 一 
个 中 间 的 操作 系统 , 它 屏蔽 了 底层 操作 系统 之 间 的 异 构 。 通 过 IaaS, 用 户 可 以 远程 访问 自 
己 需要 的 计算 资源 ,这 些 资源 可 以 是 计算 、 存 储 或 其 他 资源 ,而 不 需要 考虑 对 所 获得 的 计算 
资源 付出 相应 的 基础 IT 软 硬 件 的 维护 ,升级 等 费用 。 

随 着 云 计算 的 广泛 应 用 , 云 计算 平台 的 安全 性 成 为 云 计算 的 核心 问题 之 一 , 它 主 要 有 以 
PIL ifi 59 , 

CD 用 户 数据 的 安全 性 。 著 名 的 Garnter 公司 在 一 份 关于 云 计 算 风 险 的 调查 报告 中 提 
出 :“ 云 计算 平台 服务 提供 商 权 利 过 大 ,致使 云 计 算 平台 中 的 用 户 数据 可 能 会 被 非法 访问 与 
泄露 9”。 另 外 ,来 自 外 部 的 恶意 攻击 也 对 数据 的 安全 性 构成 了 威胁 ,2005 年 著名 的 在 线 
付费 提供 商 PayMaxx 泄露 了 多 于 250 000 个 用 户 的 信息 ,就 是 因为 其 系统 的 安全 漏洞 收 到 
了 来 自 外 部 的 恶意 攻击 Co 。 

(2) 云 计 算 平 台 的 容错 性 。 云 计算 平台 必须 确保 为 其 用 户 提供 正确 可 用 的 服务 。 所 以 
其 平台 内 部 软 硬 件 故 障 的 发 生 ,不 能 对 所 提供 的 服务 产生 影 

(3) 平台 的 可 维护 性 。 管 理 与 维护 超大 规模 的 硬件 和 软件 ,这 对 于 云 计算 平台 来 说 ,是 
很 具有 挑战 性 的 ,并 且 平 台 内 部 对 软件 和 硬件 的 管理 维护 操作 不 能 影响 云 计算 平台 上 层 所 
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提供 的 各 种 服务 的 正常 运行 。 

在 目前 的 云 计 算 环 境 中 ,用 户 与 云 计算 平台 服务 提供 商 之 间 的 关系 是 不 可 靠 的 ,这 给 云 
计算 平台 的 安全 带 来 了 很 大 的 危害 。 一 方面 , 云 计算 用 户 想 要 确保 他 们 的 服务 在 云 计算 平 
台中 被 正确 地 运行 ,他 们 的 数据 信息 相对 于 其 他 用 户 或 组 织 是 不 可 见 的 ,而 且 不 会 被 恶意 使 
JH; 另 一 方面 , 云 计算 平 台中 存在 了 多 个 用 户 , 它 必须 得 保证 少 部 分 用 户 对 平台 的 不 安全 操 
作 不 能 影响 到 云 计 算 平台 本 身 , 造 成 云 计算 平台 对 其 他 用 户 无 法 提供 正常 的 服务 。 另 外 一 
个 问题 是 目前 日 常 使 用 的 操作 系统 从 本 质 上 来 说 是 不 安全 的 ,缺陷 与 安全 漏洞 的 出 现 是 不 
可 避免 的 527 。 而 且 目 前 的 操作 系统 是 单 内 核 设 计 , 这 使 得 某 一 部 分 的 安全 漏洞 可 能 会 引 
起 整个 操作 系统 被 攻击 。 操 作 系 统 的 接口 对 于 应 用 程序 的 开放 性 ,没有 遵守 最 小 特权 原则 
(Principle of Least Privilege. POLP) ,导致 了 操作 系统 被 恶意 用 户 控 制 的 潜在 威胁 53 。 云 
计算 提供 了 平台 即 服务 ,这 增加 了 操作 系统 的 复杂 性 ,所 以 传统 的 安全 策略 ,比如 访问 控制 、 
完整 性 保护 ,平台 度量 等 策略 "中 已 经 不 足以 为 用 户 的 数据 文件 提供 足够 的 安全 性 。 


9.2.2 研究 现状 


云 计算 技术 上 的 研究 主要 包括 4 个 方面 : 云 计 算 相 关 理 论 、 云 计算 相关 技术 、 云 计算 平 
台 和 云 计算 应 用 。 

在 云 计算 技术 领域 里 ,其 中 云 计算 编程 方面 ,有 很 多 研究 机 构 开发 了 新 的 编程 模式 ,对 
MapReduce 编程 模式 进行 扩展 或 者 更 新 。Yahoo 扩展 了 MapReduce 框架 ,在 MapReduce 
步骤 之 后 加 入 一 个 Merge 的 步骤 ,从 而 形成 一 个 新 的 MapReduceMerge 框架 。 使 用 这 样 的 
框架 应 用 程序 开发 人 员 可 以 自己 提供 Merge 函数 ,做 两 个 数据 集合 的 合并 操作 。 斯 坦 福 大 
学 的 研究 人 员 将 MapReduce 的 思想 应 用 到 多 核 处 理 器 上 ,主要 工作 是 在 多 核 处 理 器 的 基础 
上 构建 了 一 套 MapReduce 的 编程 框架 ,并 结合 各 种 不 同 的 应 用 程序 在 多 核 上 的 表现 与 现 有 
的 使 用 pthread 编程 方式 进行 比较 。 结 果 表 明 , 在 适合 MapReduce 表达 的 应 用 程序 上 ， 
MapReduce 效率 较 高 ,在 多 核 上 的 应 用 是 有 价值 的 。Wisconsin 大 学 的 研究 人 员 在 Cell 处 
理 器 上 运行 了 基于 MapReduce 的 应 用 程序 。 由 于 Cell 处 理 器 是 异 构 多 核 的 处 理 器 ,由 一 
个 中 央 处 理 器 和 八 个 协 处 理 器 构成 ,对 此 编程 比较 困难 。 他 们 将 MapReduce 的 框架 移植 到 
Cell 处 理 器 的 架构 上 。 实 验 结果 表明 ,Cell 处 理 器 上 的 MapReduce 程序 有 一 定 程 度 的 性 能 
提高 。 在 不 同 于 MapReduce 编程 方面 ,HP 的 Sinfonia 将 注意 力 关 注 于 分 布 式 共享 内 存 的 
使 用 。Sinfornia 提供 了 一 个 新 的 编程 接口 ,一 个 对 于 内 存 的 读 写 操作 三 元 组 (Compare， 
Read, Write)”。 在 这 个 三 元 组 中 ,Compare 是 比较 列表 ,由 应 用 程序 提供 一 系列 的 值 与 相 
应 的 集群 内 存 中 的 数值 进行 比较 ,类 似 地 ,Read 和 Write 是 读 出 和 写 入 的 列表 ,表明 一 系列 
的 读 写 操作 。 其 语意 是 首先 进行 Compare 列表 的 比较 ,如 果 所 有 的 比较 都 能 得 到 满足 , 则 
进行 三 元 组 中 的 读 写 操作 。 如 果 上 述 的 任何 一 个 部 分 操作 失败 , 则 整个 操作 回 卷 到 操作 之 
前 的 状态 ,保持 系统 一 致 。 目 前 已 经 在 这 种 模式 上 完成 了 分 布 式 文件 系统 的 构建 以 及 分 布 
式 的 垃圾 收集 系统 等 。 同 时 ,这 样 的 一 种 系统 也 能 够 容忍 大 量 结 点 的 失败 ,完成 对 于 可 用 性 
的 保证 。 

云 计算 具 备 最 基本 的 三 个 环节 : 分 布 计算 结 点 、 计 算 能 力 集群 和 再 分 配 的 云 、 计 算 能 力 
的 用 户 结 点 。 这 三 个 环节 中 的 任意 一 个 出 现 安全 问题 ,或 者 任意 两 个 的 连接 处 出 现 安全 问 
题 , 都 有 可 能 带 来 整个 云 的 骨 泪 。 当 前 云 计算 安全 研究 机 构 主 要 集中 于 用 传统 安全 的 方法 
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解决 云 计算 的 安全 问题 ,例如 传统 的 加 密 ,数字 签名 ,访问 控制 等 ,而 传统 的 安全 方法 面 对 大 
规模 数据 处 理 的 云 计 算 性 能 都 得 不 到 很 好 的 保障 。 


9.2.3 产业 状况 


按照 计算 机 行业 的 观点 认为 : 云 计 算 将 成 为 全 球 IT 业 恢 复 性 增长 背景 和 物 联网 方向 
下 的 行业 主要 趋势 ; 全 球 IT 业 将 进入 恢复 性 增长 阶段 ,Gartner 报告 显示 近 10 年 全 球 IT 
支出 下 降 5. 2% ,而 今后 10 年 全 球 IT 支出 预计 增长 3. 3% ,国内 IT 业 则 从 下 游行 业 的 旺盛 
需求 及 软件 外 包 的 高 速 增长 获得 支撑 ; IDC 预测 , 云 计算 相关 IT 支出 2012 年 将 达 423 亿 
美元 ,年 复合 增长 率 27.3% ,超出 云 计 算 以 外 IT 支出 部 分 增 速 (5.3%)5 倍 以 上 。 
关于 云 计 算 产业 状况 详 见 表 9-2, 
表 9-2 国外 云 计算 产业 状况 


a 计算 描 xk f 点 ik 点 
mre EN 
亚马逊 基础 云 计算 a 的 基础 服务 ,真正 的 到 | 不 支持 IDE 
. 简单 存储 服务 (s3) _ | 有 限 的 服务 水 平 
(Amazon Infrastrure Cloude) 期 即 付 的 使 用 模式 , 标 
简单 队列 服务 (sos) 准 的 Web 服务 界面 s | 刚刚 进入 企 业 市 志 
简单 队列 服务 (DB) 能 型 语言 
紧密 整合 的 开发 与 主机 环 | 已 有 的 .成 熟 的 Web 级 | 需要 驱动 、 基 于 页 
Caber 境 ,用 于 Web 上 的 应 用 :| 别 的 基础 服务 ; REE | 面 模式 ; 不 能 直接 


动态 runtime、 持 久 存储 、| 富 的 Google 服务 应 用 | 访问 Google 的 底 
用 户 授权 .电子 邮件 、 服 务 | 程序 界面 ; 人 门 门槛 低 | 层 ; 没有 服务 水 平 
监控 ,登录 分 析 等 (免费 使 用 ) 协议 

用 于 构造 私有 云 计 算 的 
硬件 与 软件 集合 : 刀片 | 在 办 公 支 持 以 及 开发 环 


(Google App Engine) 


IBM 蓝 色 云 计 算 机 中 心 ( 带 基于 Linux 的 | 境 领 域 的 强 有 力 地 位 供应 特定 的 硬件 ， 
(IBM Blue Cloud) 服务 器 、 网 络 技术 引擎 、| 开源 组 件 复杂 ,高 成 本 

Xen 和 PowerVM)、Hadoop | 可 自 定义 

和 Tivoli 


软件 十 服务 的 混合 模型 ，| 投资 规模 大 ,视觉 感官 
通过 一 套 核 心 在 线 服 务 | 完整 ,大 型 开发 者 社区 ， 


微软 视窗 Azure (比如 存储 、 身 份 认证 、 数 | 现 有 可 用 的 开发 工具 和 ipii 
(Microsoft Windows Azure) | 据 服务 ) 达 到 相同 的 功能 ，| 技术 ,整合 更 容易 ,特别 起 多样 而 复杂 


为 桌面 客户 端 及 云 计 算 提 | 是 与 微软 的 其 他 应 用 程 
供 相同 的 应 用 程序 界面 序 的 整合 
主机 开发 平台 ， 


AppExchange 发 展 出 的 新 m 
: > 独 有 的 语言 (Apex 
eva peered Pree cora 
(Force. com) : {HAE Web 扩展 的 基 


以 及 Apex Code( 与 Java 类 | 构 , 相 对 较 成 熟 
似 的 编程 语言 ,用 于 处 理 
商务 逻辑 和 数据 ) 


础 结构 
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续 表 
a 计算 EJ 述 优 点 缺 点 
虚拟 的 数据 中 心 操作 系 
统 , 包 括 一 套 有 代表 性 的 、 
基于 状态 传输 的 应 用 程序 | 在 云 计算 数据 中 心 内 ，| 目前 只 是 与 一 系列 
虚拟 机 软件 v 云 计算 界面 ,用 于 管理 云 计算 环 | 支持 现场 虚拟 基础 服务 | 服务 伙伴 合作 的 初 
(Vmware vCloud) 境 下 的 虚拟 机 ,以 及 一 整 | 与 外 部 Vmware 之 间 的 | 步 产 物 , 何 时 实现 ， 
套 服务 (vServices), 比如 | 移动 连接 尚 为 可 知 
反 向 负载 以 及 服务 层次 协 
议 追 踪 


9.2.4 云 计算 的 体系 结构 


本 节 将 重点 研究 云 计算 的 体系 结构 ,并 且 分 别 对 体系 结构 中 的 主 服务 控制 机 群 、 存 储 结 
点 机 和 群 . 应 用 结 点 机 群 . 计 算 结 点 机 群 . 输 入 设备 和 输出 设备 进行 相关 的 研究 。 

云 计算 机 是 基于 传统 计算 机 的 设计 思想 和 云 计算 理念 而 生 的 一 个 新 的 体系 结构 。 在 云 
计算 体系 中 应 该 具有 6 个 组 成 成 分 : 主 服务 控制 机 群 , 存 储 结 点 机 群 . 应 用 结 点 机 群 、 计 算 
结 点 机 群 .输入 设备 和 输出 设备 ,如 图 9-3 所 示 。 


1 
wa EN 


程序 数据 输入 设备 一 互联 网 计算 结 点 机 群 
人 
' 操 
输入 命令 “指令 存 取 指 令 作 
! 4 
输出 命令 
MERETUR CL. 服务 器 
结果 一 输出 说 备 控制 机 群 


图 9-3 云 计算 通用 体系 结构 


(1) 主 服务 控制 机 群 对 应 于 传统 计算 机 体系 结构 中 ,可 以 类 似 看 作 控 制 器 的 部 分 。 它 
是 由 一 组 或 多 组 主 引 导 服 务 机 群 和 多 组 分 类 控制 机 群 所 组 成 的 机 群 系统 。 主 要 负责 接收 用 
户 应 用 请 求 、 验 证 用 户 合法 性 ,并 根据 应 用 请 求 类 型 进行 应 用 分 类 和 负载 均衡 。 

(2) 存储 结 点 机 群 和 应 用 结 点 机 群 相 当 于 传统 计算 机 体系 结构 中 的 存储 器 部 分 ,但 又 
有 所 区 别 。 存 储 结 点 机 群 是 由 庞大 的 磁盘 阵列 系统 或 多 组 拥有 海量 存储 能 力 的 机 群 系统 所 
组 成 的 存储 系统 , 它 的 责任 是 处 理 用 户 数据 资源 的 存 取 工作 ,并 不 关心 用 户 对 这 些 数据 要 如 
何 应 用 ,也 不 会 处 理 存 取 数 据 资源 和 后 台 安 全 策略 管理 以 外 的 任何 操作 。 这 里 同时 提出 了 
一 个 新 的 概念 一 一 云 盘 ,所 谓 云 盘 就 是 由 云端 主 服务 控制 机 群 为 云 脑 用 户 所 分 配 的 、 建 立 在 
存储 结 点 机 群 上 的 存储 空间 , 它 虽 不 是 用 户 本 地 硬盘 ,但 却 完全 由 用 户 进 行 应 用 和 管理 , 操 
作 感 与 本 地 硬盘 一 致 。 应 用 结 点 机 群 则 是 由 一 组 或 多 组 拥有 不 同业 务 处 理 逻 辑 的 机 和 群 系统 
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所 组 成 的 应 用 系统 , 它 负 责 存储 应 用 程序 和 处 理 各 种 逻辑 复杂 的 用 户 应 用 。 这 两 个 结 点 机 
群 是 完全 按照 主 服务 控制 机 群 的 任务 控制 流程 运行 的 ,其 本 身 不 能 拥有 系统 流程 控制 权 。 

G) 计算 结 点 机 群 提供 类 似 运算 器 的 功能 。 计 算 结 点 机 群 是 由 多 组 架构 完善 的 云 计算 
机 群 所 组 成 ,其 主要 工作 是 处 理 超大 运算 量 要 求 的 计算 ,并 不 提供 小 计算 量 服务 。 因 为 机 群 
运算 会 在 多 级 交互 以 及 计算 分 配 与 组 装 上 花费 不 少时 间 , 所 以 小 计算 量 运 算 如 在 计算 结 点 
机 群 进行 处 理 不 但 开销 大 ,而 且 很 有 可 能 效率 远 不 如 单机 运算 ,可 以 说 得 不 偿 失 。 这 些小 计 
算 量 运 算 服 务 只 需 在 应 用 结 点 机 群 或 计算 结 点 机 群 的 某 台 机 器 中 完成 即 可 。 

通过 这 样 的 体系 结构 , 便 可 搭建 出 一 个 普通 的 云 计算 群 ,这 仅 是 一 套 通 用 基础 体系 结 
构 , 针 对 不 同 应 用 将 会 有 更 细致 的 设计 与 部 署 、 安 全 及 备份 ,为 第 三 方 企 业 级 开发 提供 API 
等 也 将 会 在 未 来 实际 开发 应 用 中 重点 考虑 。 

我 们 将 改良 通用 体系 结构 并 设计 一 个 复杂 的 云 计 算 模 型 系统 ,考虑 到 基于 机 群 系统 开 
发 的 实际 情况 ,我们 将 设计 一 个 由 50 一 100 台 刀 片 服务 器 组 成 的 云 计算 机 群 模型 ,以 便 引 导 
后 续 实习 者 或 学 习 者 进行 实际 开发 。 

在 主 服务 控制 机 群 的 地 方 , 为 了 简化 系统 的 复杂 度 ,将 引入 监控 管理 服务 器 的 概念 。 在 
负载 均衡 时 ,只 需 取 出 监控 管理 服务 器 对 各 结 点 的 状态 监控 信息 , 便 可 进行 应 用 或 存储 策略 
分 配 。 同 时 ,将 应 用 结 点 机 群 和 存储 结 点 机 群 合 并 为 一 个 应 用 及 存储 结 点 机 群 ,一 是 在 实验 
中 可 节省 成 本 和 减少 硬件 资源 的 浪费 ; 二 是 由 于 在 实验 开发 环境 中 ,整个 系统 架构 在 局 域 
网 中 ,网 络 带 宽 还 不 会 成 为 系统 的 瓶颈 ,这 样 设计 理论 上 可 以 提高 网 络 负载 ,更 容易 暴露 系 
统 问题 ,易于 发 现 问题 ,测试 。 


9.2.5 虚拟 化 逻辑 协议 


我 们 将 重点 研究 云 计算 虚拟 化 逻辑 协议 以 及 云 计算 中 的 虚拟 化 技术 原理 。 

虚拟 化 技术 是 一 种 逻辑 简化 技术 ,实现 物理 层 向 逻辑 层 的 变化 。 从 这 个 定义 来 看 一 个 
系统 采用 虚拟 化 技术 后 其 对 外 表现 出 的 运动 方式 是 一 种 逻辑 化 的 运动 方式 ,而 不 是 真实 的 
物理 运动 方式 。 所 以 采用 虚拟 化 技术 能 实现 对 物理 层 运动 复杂 性 的 屏蔽 ,使 系统 对 外 运行 
状态 呈现 出 简单 的 逻辑 运动 形态 ,如 图 9-4 Bros o 

虚拟 化 技术 是 一 项 综合 性 的 技术 ,对 于 计算 机 科学 来 说 大 部 分 


工作 都 是 在 做 虚拟 化 的 工作 ,网 络 的 七 层 协议 是 对 物理 通信 的 虚拟 Eman 

化 ,传统 的 操作 系统 是 对 单个 计算 机 物理 硬件 的 虚拟 化 ,计算 机 高 级 虚拟 化 层 
语言 是 对 机 器 语言 的 虚拟 化 ,人 工 智能 则 是 更 高 级 的 虚拟 化 技术 。 

计算 机 科学 的 虚拟 化 层次 用 图 9-4 进行 了 简单 的 描述 , 结 点 的 物理 物理 运动 

硬件 和 网 络 物理 硬件 通过 允 层 虚拟 化 的 过 辑 简化 过 程 形成 了 弹性 化 图。 上 所 化 技术 的 
的 计算 存储 和 网 络 带宽 三 者 整合 的 虚拟 资源 池 ,也 就 是 云 计算 pee 
模式 。 


从 图 9-5 可 以 看 出 云 计算 的 概念 位 与 整个 逻辑 的 最 上 层 ,是 底层 物理 硬件 经 过 多 次 虚 
拟 化 抽象 而 形成 的 一 个 逻辑 概念 。 这 也 就 说 明了 为 什么 云 计 算是 未 来 几 年 的 技术 发 展 方 
向 ,因为 技术 的 发 展 就 是 一 个 不 断 抽 象 简化 的 过 程 , 越 上 层 的 技术 逻辑 就 是 越 高 级 的 逻辑 ， 
因为 这 个 逻辑 是 站 在 了 很 多 巨人 肩 上 的 ,这 些 巨人 就 是 下 层 的 虚拟 化 技术 。 

所 以 可 以 说 云 计 算 系 统 是 运行 在 一 个 多 层 虚拟 化 协议 栈 上 的 高 度 抽 象 系统 。 
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计算 、 存 储 和 网 络 带宽 (三 者 整合 且 弹性 化 的 资源 池 ) 


多 结 点 虚拟 :分 布 式 存储 ,不 可 信 结 点 失效 处 理 , 多 结 点 间 数 据 通信 


的 虚拟 化 分 布 式 计算 ,计算 与 存储 整合 , 结 点 间 计 算 和 存储 的 迁移 
智能 智能 智能 智能 
智能 虚拟 智能 虚拟 智能 虚拟 智能 虚拟 
高 级 语言 高 级 语言 高 级 语言 高 级 语言 
机 器 语言 虚拟 | “| 机 器 语言 虚拟 | | 机 器 语言 虚拟 | | 机 器 语言 虚拟 
多 层 罗 辑 简 化 
单机 OS 单机 OS 单机 OS 单机 OS 
硬件 虚拟 硬件 虚拟 硬件 虚拟 硬件 虚拟 
网 络 协议 
网 络 虚 拟 
网 络 物理 层 
| 结 点 硬件 结 点 硬件 结 点 硬件 结 点 硬件 


9-5 ”从 虚拟 化 角度 看 云 计算 的 架构 


云 计算 标准 就 是 要 建立 一 个 虚拟 化 的 逻辑 协议 栈 , 使 产业 链 上 的 不 同 企 业 能 有 效 地 在 
同一 个 逻辑 递 推 关系 下 工作 。 图 9-6 是 云 计算 协议 栈 的 一 个 简 图 ,其 中 的 每 一 层 可 能 还 会 
包括 许多 子 层 , 云 计算 概念 是 下 层 多 个 逻辑 协议 层 递 推出 的 一 个 上 层 概念 。 


云 计算 
多 结 点 操作 系统 虚拟 化 逻辑 协议 层 
多 结 点 计算 虚拟 化 逻辑 协议 层 
多 结 点 存储 虚拟 化 逻辑 协议 层 
单机 操作 系统 虚拟 化 逻辑 协议 层 
网 络 硬件 虚拟 化 逻辑 协议 层 
单 结 点 硬件 虚拟 化 逻辑 协议 层 


9-6 云 计算 简化 协议 栈 


9.2.6 海量 数据 高 速 处 理 算法 

海量 数据 处 理 是 云 计算 发 展 的 必然 结果 ,对 海量 数据 分 析 和 挖掘 也 显得 越 来 越 重要 ,从 
海量 数据 中 提取 有 用 信息 重要 而 紧迫 ,这 便 要 求 处 理 要 准确 ,精度 要 高 ,而 且 处 理 时 间 要 短 ， 
得 到 有 价值 信息 要 快 ,所 以 ,对 海量 数据 的 研究 很 有 科学 研究 价值 ,值得 我 们 进行 广泛 深入 
的 研究 。 基 于 海量 数据 的 数据 按 掘 正在 逐步 兴起 , 面 对 着 超 海量 的 数据 ,一 般 的 挖掘 软件 或 
算法 往往 采用 数据 抽样 的 方式 进行 处 理 , 这 样 的 误差 不 会 很 高 ,大 大 提高 了 处 理 效率 和 处 理 
的 成 功率 。 因 此 我 们 将 重点 研究 海量 数据 处 理 ,包括 海量 数据 排序 海量 数据 查询 ,海量 数 
据 挖掘 ,海量 数据 去 重 统计 等 。 
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在 实际 的 工作 环境 下 ,许多 人 会 遇 到 海量 数据 这 个 复杂 而 艰巨 的 问题 , 它 的 主要 难点 有 
以 下 几 个 方面 : 

1. 数据 量 过 大 ,数据 中 什么 情况 都 可 能 存在 

如 果 数 据 上 到 千 万 级 别 , 甚 至 过 亿 , 人 为 的 每 条 去 逐一 检查 已 不 可 能 ,必须 通过 工具 或 
者 程序 进行 处 理 , 尤 其 海量 的 数据 中 ,什么 情况 都 可 能 存在 ,例如 ,数据 中 某 处 格式 出 了 问 
题 ,尤其 在 程序 处 理 时 ,前 面 还 能 正常 处 理 , 突 然 到 了 某 个 地 方 问题 出 现 了 ,程序 终止 了 。 

2. 软 硬 件 要 求 高 ,系统 资源 占用 过 高 

对 海量 的 数据 进行 处 理 , 除 了 好 的 方法 ,最 重要 的 就 是 合理 使 用 工具 ,合理 分 配 系统 资 
源 。 在 云 计 算 平台 中 ,对 云 平 台 的 并 发 计算 要 求 较 高 。 


9.2.7 虚拟 化 技术 


云 计算 中 最 核心 的 技术 就 是 虚拟 化 技术 , 它 通 过 使 用 软 硬 件 分 时 服务 ,模拟 与 仿真 执行 
等 技术 ,达到 在 单个 计算 机 物理 设备 上 模拟 出 多 个 相互 隔离 的 硬件 执行 环境 的 目的 。 这 个 
相互 隔离 的 虚拟 执行 环境 也 被 称 为 虚拟 机 (Virtual Machine, VM) ,在 虚拟 机 上 用 户 可 以 运 
行 多 个 操作 系统 和 各 种 应 用 程序 。 在 位 于 虚拟 机 中 运行 的 操作 系统 和 底层 硬件 资源 之 间 有 
一 个 称 为 虚拟 机 监控 器 (Virtual Machine Monitor,VMM) 的 附加 层 。 它 专门 负责 管理 底层 
硬件 资源 ,然后 将 其 分 配给 上 层 运行 的 虚拟 机 。 

根据 其 提供 的 平台 类 型 ,将 VMM 分 为 两 类 : 完全 虚拟 化 和 部 分 虚拟 化 。 

1. 完全 虚拟 化 

完全 虚拟 化 (Full Virtualization) 方 式 中 VMM 虚拟 的 是 真实 的 物理 平台 ,在 操作 系统 
看 来 ,完全 虚拟 化 方式 的 虚拟 平台 与 真实 的 物理 平台 区 别 不 大 ,根本 感觉 不 到 是 运行 在 虚拟 
的 平台 之 上 。 这 样 的 虚拟 平台 不 需要 对 操作 系统 作 修改 就 可 以 直接 运行 ,所 以 称 为 完全 虚 
拟 化 。 

完全 虚拟 机 中 所 虚拟 的 是 相应 的 物理 硬件 的 完全 逻辑 复制 。 它 独立 于 其 他 虚拟 机 ,而 
且 完全 虚拟 机 之 间 也 是 互 不 相 见 的 ,就 像 是 现实 中 的 一 个 独立 完整 的 的 计算 机 设备 。 所 以 
在 完全 虚拟 机 中 运行 的 操作 系统 与 在 真实 的 物理 设备 上 的 运行 几乎 是 一 样 的 。 而 且 完 全 虚 
拟 机 不 需要 对 操作 系统 做 任何 修改 。 操 作 系统 对 虚拟 出 来 的 设备 ,比如 : 虚拟 处 理 器 ,虚拟 
内 存 及 虚拟 1/O 设备 的 操作 与 相应 的 物理 设备 的 操作 是 一 样 的 。 运 行 在 IBM360/67 上 的 
CP-67 系统 是 最 早 实现 完全 虚拟 化 的 。 

最 流行 的 虚拟 化 方法 使 用 名 为 hypervisor 的 一 种 软件 ,在 虚拟 服务 器 和 虚拟 化 技术 底 
层 硬件 之 间 建 立 一 个 抽象 层 。VMware 和 微软 的 Virtual PC 是 代表 该 方法 的 两 个 商用 产 
品 ,而 基于 核心 的 虚拟 机 (KVM) 是 面向 Linux 系统 的 开源 产品 。hypervisor 可 以 捕获 CPU 
指令 ,为 指令 访问 硬件 控制 器 和 外 设 充当 中 介 。 因 而 ,完全 虚拟 化 技术 几乎 能 让 任何 一 款 操 
作 系 统 不 用 改动 就 能 安装 到 虚拟 服务 器 上 ,而 它们 不 知道 自己 运行 在 虚拟 化 环境 下 。 主 要 
缺点 是 ,hypervisor 给 处 理 器 带 来 开销 。 在 完全 虚拟 化 的 环境 下 ,hypervisor 运行 在 裸 硬件 
上 ,充当 主机 操作 系统 ; 而 由 hypervisor 管理 的 虚拟 服务 器 运行 客户 端 操作 系统 (guest 
OS) 。 
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2. 准 虚 拟 化 

完全 虚拟 化 是 处 理 器 密集 型 技术 ,因为 它 要 求 hypervisor 管理 各 个 虚拟 服务 器 ,并 让 它 
们 彼此 独立 。 减 轻 这 种 负担 的 一 种 方法 就 是 ,改动 客户 操作 系统 ,让 它 以 为 自己 运行 无 法 虚 
W 64 位 客户 操作 系统 。 在 虚拟 环境 下 ,能够 与 hypervisor 协同 工作 。 这 种 方法 就 叫 准 虚拟 
化 (Para-Virtualization) , 准 虚 拟 化 也 称 部 分 虚拟 化 , 它 是 通过 修改 操作 系统 内 核 的 源 代码 
以 规避 部 分 无 法 实现 虚拟 化 指令 的 方式 ,使 得 虚拟 机 监控 器 (VMM) 可 以 将 物理 资源 进行 
虚拟 化 。 完 全 虚拟 化 中 无 法 处 理 的 特殊 指令 是 通过 Binary Translation 将 相应 的 客户 机 二 
进 制 代码 进行 修改 处 理 的 。 而 类 虚拟 化 采用 了 完全 不 同 的 思路 , 它 是 通过 修改 API 级 的 操 
作 系 统 内 核 代 码 ,使 得 操作 系统 内 核 完全 规避 了 那些 无 法 虚拟 化 的 指令 。 

Xen 是 开源 准 虚拟 化 技术 的 一 个 例子 。 操 作 系 统 作为 虚拟 服务 器 在 Xen hypervisor 上 
运行 之 前 , 它 必须 在 核心 层面 进行 某 些 改变 。 因 此 ,Xen 适用 于 BSD, Linux, Solaris 及 其 他 
开源 操作 系统 ,但 不 适合 对 像 Windows 这 些 专 有 的 操作 系统 进行 虚拟 化 处 理 ,因为 它们 无 
法 改动 。 准 虚拟 化 技术 的 优点 是 性 能 高 。 经 过 准 虚拟 化 处 理 的 服务 器 可 与 hypervisor 协同 
工作 ,其 响应 能 力 几 乎 不 亚 于 未 经 过 虚拟 化 处 理 的 服务 器 。 准 虚拟 化 与 完全 虚拟 化 相 比 优 
点 明显 ,以 至 于 微软 和 VMware 都 在 开发 这 项 技术 ,以 完善 各 自 的 产品 。 

下 面 将 重点 介绍 以 下 4 项 虚拟 化 核心 技术 : 

1) CPU 和 MEM 的 热 插 拔 技术 

云 计 算 的 基础 设施 服务 是 提供 : 计算 能 力 、 网 络 带 宽 能 力 ,存储 能 力 。 计 算 能 力 的 动态 
扩展 ,也 就 是 虚拟 CPU 和 MEM 的 热 插 拔 技术 是 其 中 最 难 的 部 分 ,这 不 仅 涉及 硬件 对 热 插 
拔 的 支持 ,还 涉及 虚拟 化 技术 对 热 插 拔 的 支持 。 使 得 其 相应 可 以 在 我 们 的 服务 中 真正 实现 
虚拟 机 的 动态 扩容 ,实现 真正 的 弹性 ,能 在 不 停 客户 服务 的 情况 下 变更 计算 能 力 。 因 此 我 们 
将 重点 研究 虚拟 CPU 和 MEM 的 热 插 拔 技术 。 

2) 软 交 换 技术 

软 交 换 技术 ,是 用 来 提供 虚拟 机 之 间 的 虚拟 网 络 数 据 通 信 。 目 前 部 分 公司 和 科研 机 构 
也 在 研发 软 交换 程序 ,但 目前 大 都 是 二 层 交换 。 这 些 软 交 换 设 备 通 过 上 联 到 一 个 真实 交换 
机 上 实现 一 个 级 联 的 交换 网 络 , 可 以 提供 VLan 划分 , 限 速 ,流量 控制 等 功能 ,但 是 效率 不 够 
高 ,我们 将 研究 高 效 的 软 交 换 技术 。 

3) IAAS API 

目前 ,虚拟 化 技术 的 两 个 主要 发 展 方向 是 服务 器 虚拟 化 和 桌面 虚拟 化 ,而 桌面 虚拟 化 是 
将 整个 IT 带 入 云 计 算 时 代 的 关键 ,这 意味 着 可 以 通过 各 种 便携 式 设备 访问 云端 的 服务 。 
而 这 些 服务 必须 具备 统一 的 访问 协议 .API。IAAS 需要 为 上 层 服 务 、 第 三 方 开 发 者 提供 统 
一 的 访问 协议 。 因 此 ,我 们 将 重点 研究 IAAS 的 访问 协议 和 API 接口 。 

4) 与 分 布 式 计算 的 结合 

虚拟 化 技术 是 将 计算 能 力 进 行 “分 ”, 使 得 每 一 个 虚拟 计算 单元 的 能 力 小 于 支撑 它 的 物 
理 硬件 。 而 目前 稍微 具备 规模 的 应 用 其 对 计算 能 力 的 需求 往往 大 于 一 个 单独 的 物理 硬件 ， 
这 就 需要 分 布 式 计算 的 支持 ,也 就 是 “ 合 ”"。“ 分 ”能 带 来 很 多 好 处 ,例如 资源 复 用 方便 的 管 
理 等 ,但 如 果 只 是 “分 ”而 不 对 “分 ”以 后 的 资源 有 效 的 “ 合 ”, 那 么 就 只 能 满足 小 客户 的 应 用 ， 
不 能 满足 大 客户 的 应 用 。 因 此 ,我 们 将 重点 研究 如 何 有 效 地 将 虚拟 化 技术 与 分 布 式 计算 相 


结合 。 
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9.2.8 云 计算 相关 技术 

1. 云 服务 器 的 研发 

大 型 服务 器 是 云 计算 的 核心 硬件 设备 ,该 产品 的 成 功 自主 研发 将 为 我 国 自主 掌握 云 计 
算 基础 ,实现 国家 信息 安全 可 控 , 将 发 挥 重要 作用 ,具有 长 远 的 产业 战略 意义 ,对 于 解决 当前 
由 大 到 强 的 IT 产业 问题 也 具有 基础 性 作用 。 

我 们 将 研究 采用 紧 耦 合共 享 内 存 、 硬 件 分 区 等 高 端 服务 器 技术 , 按 当前 业界 高 标准 研究 
设计 支持 8 颗 64 核心 处 理 器 ,1TB 的 DDR3 内 存 , 能 降低 能 源 消耗 ,减少 碳 排放 的 云 计算 
服务 器 。 同 时 ,将 研究 可 靠 性 技术 ,如 计算 链 路 全 宛 余 .故障 自动 切换 技术 以 及 多 种 可 信 技 
术 , 这 样 的 服务 器 能 满足 金融 电信、 能源 ,政府 等 国民 经 济 关键 行业 对 云 计算 信息 化 7 义 24 
小 时 不 间断 运行 需求 。 同 时 ,我们 需要 研究 BIOS 开发 .高速 互联 背 板 设计 等 多 项 业界 技术 
难题 。 

2. 云 存 储 技术 

为 保证 高 可 用 高 可 靠 和 经 济 性 , 云 计算 采用 分 布 式 存储 的 方式 来 存储 数据 ,采用 元 余 
存储 的 方式 来 保证 存储 数据 的 可 靠 性 , 即 为 同一 份 数据 存储 多 个 副本 。 另 外 , 云 计算 系统 需 
要 同时 满足 大 量 用 户 的 需求 ,并行 地 为 大 量 用 户 提供 服务 。 因 此 , 云 计 算 的 数据 存储 技术 必 
须 具有 高 吞吐 率 和 高 传输 率 的 特点 。 因 此 ,在 云 存储 技术 方向 上 ,我 们 将 重点 研究 具有 高 知 
吐 率 和 高 传输 率 的 云 存 储 技术 。 

云 计 算 的 数据 存储 技术 未 来 的 发 展 将 集中 在 超大 规模 的 数据 存储 ,数据 加 密 和 安全 性 
保证 以 及 继续 提高 1/0 速率 等 方面 。 以 GFS(Google File System) H fl. GFS 是 一 个 管理 
大 型 分 布 式 数据 密集 型 计算 的 可 扩展 的 分 布 式 文件 系统 。 它 使 用 廉价 的 商用 硬件 搭建 系统 
并 向 大 量 用 户 提 供 容错 的 高 性 能 的 服务 。GFS 和 普通 的 分 布 式 文件 系统 有 以 下 区 别 , 如 
表 9-3 所 示 。 

表 9-3 GIS 与 传统 分 布 式 文件 系统 的 区 别 


文件 系统 组 件 失败 管理 文件 大 小 数据 写 方式 数据 流 和 控制 流 
GFS 不 作为 异常 处 理 少量 大 文件 在 文件 末尾 附加 数据 数据 流 和 控制 流 分 开 
传统 分 布 式 文件 系统 “作为 异常 处 理 大 量 小 文件 修改 现存 数据 数据 库 和 控制 流 结合 


GFS 系统 由 一 个 主 控 端 和 大 量 块 服务 器 构成 。 主 控 端 存放 文件 系统 的 所 有 元 数据 , 包 
括 名 字 空 间 、 存 取 控 制 ,文件 分 块 信息 、 文 件 块 的 位 置信 息 等 。GFS 中 的 文件 切 分 为 64MB 
的 块 进行 存储 。 

在 GFS 文件 系统 中 ,采用 宛 余 存储 的 方式 来 保证 数据 的 可 靠 性 。 每 份 数据 在 系统 中 保 
存 3 个 以 上 的 备份 。 为 了 保证 数据 的 一 致 性 ,对 于 数据 的 所 有 修改 需要 在 所 有 的 备份 上 进 
行 , 并 用 版 本 号 的 方式 来 确保 所 有 备份 处 于 一 致 的 状态 。 客 户 端 不 通过 主 控 端 读 取 数 据 , 避 
免 了 大 量 读 操作 使 主 控 端 成 为 系统 瓶颈 。 客 户 端 从 主 控 端 获取 目标 数据 块 的 位 置信 息 后 ， 
直接 和 块 服务 器 交互 进行 读 操作 。 

GFS 的 写 操作 将 写 操作 控制 信号 和 数据 流 分 开 , 如 图 9-7 所 示 。 

即 客户 端 在 获取 主 控 端 的 写 授权 后 ,将 数据 传输 给 所 有 的 数据 副本 ,在 所 有 的 数据 副本 
都 收 到 修改 的 数据 后 ,客户 端 才 发 出 写 请 求 控制 信号 。 在 所 有 的 数据 副本 更 新 完 数据 后 ,由 
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9-7” 写 控制 流 和 写 数 据 流 


主 副本 向 客户 端 发 出 写 操作 完成 控制 信号 。 

当然 , 云 计算 的 数据 存储 技术 并 不 仅仅 只 是 GFS, 其 他 YT 厂商 ,包括 微软 .Hadoop JF 
发 团队 也 在 开发 相应 的 数据 管理 工具 。 本 质 上 是 一 种 分 布 式 的 数据 存储 技术 ,以 及 与 之 相 
关 的 虚拟 化 技术 ,对 上 层 屏 项 具体 的 物理 存储 器 的 位 置 、 信 息 等 。 快 速 的 数据 定位 、 数 据 安 
全 性 ,数据 可 靠 性 以 及 底层 设备 内 存储 数据 量 的 均衡 等 方面 都 需要 继续 研究 完 

3. 云 数据 管理 技术 

云 计算 系统 对 大 数据 集 进 行 处 理 、 分 析 向 用 户 提供 高 效 的 服务 。 因 此 ,我们 将 研究 能 高 
效 地 管理 大 数据 集 数据 管理 技术 ,包括 大 数据 集 的 添加 、 删 除 、 修 改 、 备 份 等 管理 技术 。 其 
次 ,我 们 将 重点 研究 如 何在 规模 巨大 的 数据 中 找到 特定 的 数据 。 我 们 将 研究 Google 提出 的 
BigTable 数据 处 理 技术 ,研究 其 优 缺 点 以 及 改良 其 设计 。 

云 计 算 的 特点 是 对 海量 的 数据 存储 、 读 取 后 进行 大 量 的 分 析 ,数据 的 读 操作 频率 远大 于 
数据 的 更 新 频率 , 云 中 的 数据 管理 是 一 种 读 优化 的 数据 管理 。 因 此 , 云 系 统 的 数据 管理 往往 
采用 数据 库 领 域 中 列 存 储 的 数据 管理 模式 。 将 表 按 列 划 分 后 存储 。 

云 计算 的 数据 管理 技术 中 最 著名 的 是 谷歌 提出 的 BigTable 数据 管理 技术 。 由 于 采用 
列 存储 的 方式 管理 数据 ,如 何 提高 数据 的 更 新 速率 以 及 进一步 提高 随机 读 速 率 是 未 来 的 数 
据 管 理 技 术 必 须 解 决 的 问题 。 

以 BigTable 为 例 。BigTable 数据 管理 方式 设计 者 Google 给 出 了 如 下 定义 :“BigTable 
是 一 种 为 了 管理 结构 化 数据 而 设计 的 分 布 式 存储 系统 ,这 些 数据 可 以 扩展 到 非常 大 的 规模 ， 
例如 在 数 千 台 商用 服务 器 上 的 达到 PB(Petabytes) 规 模 的 数据 。” 

BigTable 对 数据 读 操作 进行 优化 ,采用 列 存储 的 方式 ,提高 数据 读 取 效率 。BigTable 
管理 的 数据 的 存储 结构 为 : 

<row: string, column; string, time; int64->>->string, BigTable 的 基本 元 素 是 : 行 , 列 ， 
记录 板 和 时 间 截 。 其 中 ,记录 板 是 一 段 行 的 集合 体 , 如 图 9-8 Bros 。 

BigTable 中 的 数据 项 按照 行 关键 字 的 字典 序 排列 ,每 行动 态 地 划分 到 记录 板 中 。 每 个 
结 点 管理 大 约 100 个 记录 板 。 时 间 戳 是 一 个 64 位 的 整数 ,表示 数据 的 不 同 版 本 。 列 族 是 若 
干 列 的 集合 ,BigTable 中 的 存 取 权 限 控制 在 列 族 的 粒度 进行 。BigTable 在 执行 时 需要 三 个 
主要 的 组 件 :链接 到 每 个 客户 端的 库 ,一 个 主 服务 器 ,多 个 记录 板 服务 器 。 主 服务 器 用 于 分 
配 记录 板 到 记录 板 服务 器 以 及 负载 平衡 ,垃圾 回收 等 。 记 录 板 服务 器 用 于 直接 管理 一 组 记 
录 板 ,处 理 读 写 请 求 等 。 
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9-8 BigTable 的 逻辑 结构 


为 保证 数据 结构 的 高 可 扩展 性 ,BigTable 采用 三 级 的 层次 化 的 方式 来 存储 位 置信 息 ， 
如 图 9-9 所 示 。 其 中 第 一 级 的 Chubby File 中 包含 Root Tablet 的 位 置 ,Root Tablet 根 表 单 有 
且 仅 有 一 个 ,包含 所 有 Metadata Tablets 元 数据 表单 的 位 置信 息 ,每 个 Metadata Tablets 包含 许 
多 User Table 的 位 置信 息 。 

用 户 表 1 


其 他 元 数据 表单 /| ----- 


aa AE 
MEER 


9-9 BigTable 中 存储 记录 板 位 置信 息 的 结构 


当 客 户 端 读 取 数据 时 ,首先 从 Chubby File 中 获取 Root Tablet 的 位 置 ,并 从 中 读 取 相 
应 Metadata Tablet 的 位 置信 息 。 接 着 从 该 Metadata Tablet 中 读 取 包含 目标 数据 位 置信 息 
的 User Table 的 位 置 ,然后 从 该 User Table 中 读 取 目标 数据 的 位 置信 息 项 。 据 此 信息 到 服 
务 器 中 特定 位 置 读 取 数 据 。 

这 种 数据 管理 技术 虽然 已 经 投入 使 用 ,但 是 仍然 具有 部 分 缺点 。 例 如 ,对 类 似 数 据 库 中 
的 Join 操作 效率 太 低 , 表 内 数据 如 何 切 分 存储 ,数据 类 型 限定 为 string 类 型 过 于 简单 等 。 
而 微软 的 DryadL INQ 系统 则 将 操作 的 对 象 封装 为 . NET 类 ,这 样 有 利于 对 数据 进行 各 种 
操作 ,同时 对 Join 进行 了 优化 ,得 到 了 比 BigTable+ MapReduce 更 快 的 Join 速率 和 更 易 用 
的 数据 操作 方式 。 

4. 云 计 算 的 编程 技术 

我 们 将 重点 研究 Map/Reduce 编程 技术 ,在 其 基础 上 提出 我 们 自主 的 云 计算 编程 模型 。 
为 了 使 用 户 能 更 轻松 地 享受 云 计 算 带 来 的 服务 ,让 用 户 能 利用 该 编程 模型 编写 简单 的 程序 
来 实现 特定 的 目的 , 云 计 算 上 的 编程 模型 必须 十 分 简单 。 必 须 保证 后 台 复 杂 的 并 行 执行 和 
任务 调度 向 用 户 和 编程 人 员 透 明 。 

而 当前 云 计算 大 部 分 采用 Map/Reduce 的 编程 模式 。 现 在 大 部 分 IT 厂商 提出 的 “ 云 ” 
计划 中 采用 的 编程 模型 ,都 是 基于 Map/Reduce 的 思想 开发 的 编程 工具 。Map/Reduce 不 
仅仅 是 一 种 编程 模型 ,同时 也 是 一 种 高 效 的 任务 调度 模型 。Map/Reduce 这 种 编程 模型 十 
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分 适用 于 云 计 算 。 该 编程 模式 仅 适 用 于 编写 任务 内 部 松 耦 合 、 能 够 高 度 并 行 化 的 程序 。 如 
何 改 进 该 编程 模式 ,使 程序 员 得 能 够 轻松 地 编写 紧 耦 合 的 程序 ,运行 时 能 高 效 地 调度 和 执行 
任务 ,是 Map/Reduce 编程 模型 未 来 的 发 展 方向 ,也 是 我 们 实验 室 的 重要 研究 方向 。 

然而 基于 Map/Reduce 的 开发 工具 Hadoop 并 不 完善 。 特 别 是 其 调度 算法 过 于 简单 ， 
判断 需要 进行 推测 执行 的 任务 的 算法 造成 过 多 任务 需要 推测 执行 ,降低 了 整个 系统 的 性 能 。 
我 们 将 研发 改进 型 的 Map/Reduce 的 开发 工具 ,包括 任务 调度 器 .底层 数据 存储 系统 、 输 入 
数据 切 分 ,监控 “ 云 ” 系 统 等 方面 是 将 来 我 们 研究 发 展 的 方向 。 

Map/Reduce 是 一 种 处 理 和 产生 大 规模 数据 集 的 编程 模型 ,程序 员 在 Map 函数 中 指定 
对 各 分 块 数据 的 处 理 过 程 , 在 Reduce 函数 中 指定 如 何 对 分 块 数据 处 理 的 中 间 结 果 进 行 归 
约 。 用 户 只 需要 指定 Map 和 Reduce 函数 来 编写 分 布 式 的 并 行程 序 。 当 在 集群 上 运行 
Map/Reduce 程序 时 ,程序 员 不 需要 关心 如 何 将 输入 的 数据 分 块 . 分 配 和 调度 ,同时 系统 还 
将 处 理 集群 内 结 点 失败 以 及 结 点 间 通 信 的 管理 等 。 图 9-10 给 出 了 一 个 通用 Map/Reduce 
程序 的 具体 执行 过 程 。 


(D fork 


回 分 配 ma 
Po 分 配 reduce 


分 块 1 
LC» 
分 块 3 


arses NOE Oxi 


输出 文件 0 


输入 Map 写 中 间 Reduce 输出 
文件 阶段 文件 (在 阶段 文件 
本 地 ) 


9-10 Map/Reduce 程序 的 具体 执行 过 程 


从 图 9-10 可 以 看 出 ,执行 一 个 Map/Reduce 程序 需要 5 个 步骤 :输入 文件 、 将 文件 分 配 
给 多 个 Worker 并 行 地 执行 、 写 中 间 文 件 ( 本 地 写 ) 、 多 个 Reduce Workers 同时 运行 ,输出 最 
终结 果 。 本 地 写 中 间 文 件 在 减少 了 对 网 络 带 宽 的 压力 同时 减少 了 写 中 间 文 件 的 时 间 耗 费 。 
执行 Reduce 时 ,根据 从 Master 获得 的 中 间 文 件 位 置信 息 ,Reduce 使 用 远程 过 程 调用 ,从 中 
间 文 件 所 在 结 点 读 取 所 需 的 数据 。 

Map/Reduce 模型 具有 很 强 的 容错 性 , 当 Worker 结 点 出 现 错误 时 ,只 需要 将 该 Worker 
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结 点 屏蔽 在 系统 外 等 待 修复 ,并 将 该 Worker 上 执行 的 程序 迁移 到 其 他 Worker 上 重新 执 
行 ,同时 将 该 迁移 信息 通过 Master 发 送 给 需要 该 结 点 处 理 结果 的 结 点 。Map/Reduce 使 用 
检查 点 的 方式 来 处 理 Master 出 错失 败 的 问题 , 当 Master 出 现 错误 时 ,可 以 根据 最 近 的 一 个 
检查 点 重新 选择 一 个 结 点 作为 Master 并 由 此 检查 点 位 置 继续 运行 。 

Map/Reduce 仅 为 编程 模式 的 一 种 ,微软 提出 的 DryadL INQU? 是 另外 一 种 并 行 编程 
模式 。 但 它 局 限于 . NET 的 LINQ 系统 同时 并 不 开源 ,限制 了 它 的 发 展 前 景 。 

Hadoop( 现 已 纳入 Apache 许可 证 之 下 ) 是 一 个 在 集群 上 运行 大 型 数据 处 理应 用 程序 的 
开放 式 源 代码 框架 。 它 支持 通过 Google 的 Map/ Reduce 编程 范例 来 创建 并 执行 应 用 程序 ， 
该 范例 将 应 用 程序 划分 为 可 以 在 集群 中 任何 结 点 上 执行 的 工作 片段 。 它 还 通过 一 个 分 布 式 
文件 系统 透明 地 支持 可 靠 性 和 数据 迁移 。 通过 Hadoop,“ 云 "可 以 在 合理 时 间 内 对 庞大 的 
数据 集 执行 并 行 应 用 程序 ,从 而 支持 计算 密集 型 服务 ,比如 高 效 检索 信息 ,根据 历史 记录 定 
制 用 户 会 话 , 或 基于 “蒙特 卡 罗 ”( 概 率 ) 算 法 生成 结果 。 

5. 云 安全 技术 

迄今 为 止 , 安 全 性 问题 仍然 是 云 存 储 潜 在 用 户 的 最 大 顾虑 。 其 中 一 个 问题 是 用 户 缺 乏 
对 网 络 的 控制 ,而 网 络 是 提供 去 存储 和 云 计 算 资 源 的 基础 。 于 是 ,用 户 会 怀疑 数据 被 盗窃 其 
至 被 算 改 。 因 此 ,对 于 任何 登录 ID 和 密码 之 类 的 敏感 信息 都 应 该 实施 保护 。 目 前 大 部 分 邮 
件 和 CRM 应 用 软件 供应 商都 在 云 服务 中 提供 这 种 基本 安全 性 保护 。 

安全 性 一 般 包括 四 大 元 素 , 即 身份 验证 ,授权 、 访 问 控 制 和 审计 。 

过 去 安全 性 设计 是 针对 周边 安全 性 ,用 以 拒绝 外 部 非 授 权 用 户 的 访问 。 在 虚拟 化 环境 
中 ,虚拟 YT 服务 不 存在 物理 边界 。 于 是 ,业务 必须 假设 所 有 传输 的 数据 都 有 潜在 的 被 拦截 
风险 。 

系统 取消 了 物理 控制 ,就 必须 依靠 其 他 加 固原 理 来 限制 对 信息 的 访问 。 信 息 的 加 密 是 
其 中 最 重要 的 方法 , 它 可 以 限制 对 有 用 信息 的 访问 ,这 种 限制 甚至 超过 了 对 物理 系统 的 保护 
级 别 。 于 是 ,加 密 成 为 云 服务 安全 性 的 关键 性 部 分 。 

云 存储 所 面临 的 问题 尤其 具有 挑战 ,因为 云 存储 中 数据 必须 以 某 种 加 密 格式 保存 和 获 
取 。 一旦 加 密 密 钥 本 身 丢失 或 损坏 .那么 数据 也 将 丢失 或 损坏 。 因 此 , 云 存储 和 存储 安全 性 
比 普 通 的 云 安 全 性 问题 更 加 有 具有 挑战 性 。 云 安全 应 该 具备 以 下 能 力 : 

CD 用 户 结 点 首先 要 有 威胁 隔离 能 力 , 这 里 的 隔离 是 指 , 当 使 用 同一 个 云 的 邻居 用 户 被 
入 侵 后 ,通过 该 邻居 对 本 用 户 结 点 产生 的 威胁 被 隔离 。 假 如 gmail 服务 和 twitter 服务 都 使 
用 同一 个 云 , 当 twitter 的 Web 服务 虚拟 主机 被 入 侵 后 , 想 要 通过 twitter 的 Web 服务 虚拟 
主机 再 入 侵 gmail 的 数据 库 虚拟 主机 的 企图 不 会 得 偿 。 

(2) 防御 宿主 的 攻击 ,宿主 机 在 种 种 安全 措施 下 虽然 很 安全 ,但 是 万 一 也 被 入 侵 的 话 ， 
通过 虚拟 API 就 可 以 对 用 户 结 点 造成 很 大 的 伤害 。 因 此 用 户 结 点 在 给 宿主 机 很 大 控制 权 
的 情况 下 ,要 保留 拒绝 管理 的 能 力 。 当 人 然 这 样 的 防御 策略 比较 难 制定 ,但 却 不 可 或 缺 。 

(3) 灾害 隔离 能 力 , 这 是 指 在 用 户 结 点 被 破坏 后 ,要 有 自动 隔离 不 让 本 区 域 的 灾害 蔓延 
到 其 他 用 户 结 点 ,这 就 有 点 类 似 家 庭 电力 系统 的 保险 丝 , 通 过 保险 丝 来 防止 自家 电力 问题 蔓 
延 到 邻居 家 或 整 栋 建筑 物 内 。 

6. 云 搜索 技术 


云 计算 最 早 由 Google 公司 应 用 到 其 搜索 引擎 上 ,使 得 搜索 性 能 得 到 大 幅 提 高 , 随 着 云 
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计算 技术 的 发 展 , 云 搜索 技术 也 逐渐 得 到 重视 。 我 们 将 重点 研究 云 仆 虫 技术 原理 、 海 量 数据 
抓 取 、 海 量 数据 解析 、 中 文 分 词 等 关键 技术 问题 。 

如 图 9-11 所 示 ,传统 的 搜索 引擎 技术 分 为 下 载 . 分 析 、 索 引 和 查询 4 个 系统 ,这 4 个 系 
统 相 互 配 合 ,共同 实现 了 搜索 引擎 的 需求 。 下 载 系统 负责 从 万 维 网 上 下 载 各 种 类 型 的 网 页 ， 
并 保持 与 万 维 网 的 同步 。 


FRAS LAS gue L ree Ly 


提交 查询 Pep 
用 户 Eres 查询 系统 | 


9-11 搜索 引擎 简单 结构 图 


= Gas 


SSN 


分 析 系 统 负责 分 析 下 载 系统 得 到 的 网 页 数据 ,进行 信息 抽取 、 网 页 去 重 、 中 文 分 词 和 
PageRank 等 。 

索引 系统 负责 将 分 析 系 统 处 理 后 的 网 页 对 象 索 引入 库 , 作 为 搜索 引擎 的 数据 大 本 营 , 需 
要 存储 数 以 亿 计 的 网 页 ,并 需要 支持 多 用 户 的 同时 检索 ,提供 低 于 秒 级 的 检索 时 间 。 

查询 系统 负责 分 析 用 户 提交 的 查询 请 求 ,经 过 检索 、 排 序 ,提取 摘要 等 相关 操作 ,从 索引 
库 中 检索 出 网 页 并 将 网 页 排序 后 ,以 查询 结果 的 形式 返回 给 用 户 。 

图 9-12 是 云 搜索 引擎 系统 结构 ,分 为 云 仆 虫 、 网 页 分 析 器 ,协调 器 、 索 引 等 。 
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9-12 ”搜索 引擎 系统 的 结构 


7. BM RRA 

zx f due — 4-3) RR GR AY A ETD CI 4 f CUT Has £1 T IR ae PE AR RG 
擎 从 万 维 网 上 下 载 网 页 ,是 云 搜索 的 重要 组 成 。 它 通过 请 求 站 点 上 的 HTML 文档 访问 某 一 站 
点 ,遍历 Web 空间 ,不 断 从 一 个 站 点 移动 到 另 一 个 站 点 ,自动 建立 索引 ,并 加 入 到 网 页 云 数据 
库 中 。 云 个 虫 进入 某 个 超级 文本 时 , 它 利 用 HTML 语言 的 标记 结构 来 搜索 信息 及 获取 指向 其 
他 超级 文本 的 URL 地 址 ,可 以 完全 不 依赖 用 户 干预 实现 网 络 上 的 自动 疏 行 和 搜索 。 

根据 抓 取 过 程 云 假 虫 程序 主 要 分 为 三 个 功能 模块 : 一 个 是 网 页 读 取 模块 主要 是 用 来 读 
取 远 程 Web 服务 器 上 的 网 页 内 容 ; 另 一 个 是 超 链 分 析 模 块 , 这 个 模块 主要 是 分 析 网 页 中 的 
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超 链 接 ,将 网 页 上 的 所 有 超 链接 提取 出 来 , 放 入 到 待 抓 取 URL 列表 中 ; 再 一 个 模块 就 是 内 
容 分 析 器 模块 ,这 个 模块 主要 是 对 网 页 内 容 进行 分 析 , 将 网 页 中 所 有 HTML 标签 去 掉 只 留 
下 网 页 文字 内 容 。 

云 候 虫 程序 的 主要 工作 流程 如 图 9-13 所 示 ,首先 云 仆 虫 程序 读 取 抓 取 站 点 的 URL 列 
表 , 取 出 一 个 站 点 URL ,将 其 放 和 人 未 访问 的 URL 列表 (CUVURL 列表 ) 中 ,如 果 UVURL 不 
为 空 则 从 中 取出 一 个 URL 判断 是 否 已 经 访问 过 ,车 没有 访问 过 则 读 取 此 网 页 ,并 进行 超 链 
分 析 及 内 容 分 析 , 然 后 将 此 网 页 存 入 文档 数据 库 , 将 URL 放 入 已 访问 URL 列表 (VURL 列 
表 ) ,直到 UVRL 为 空 为 止 ,此 时 再 抓 取 其 他 站 点 ,依次 循环 直到 所 有 的 站 点 URL. 列表 都 被 
抓 取 完 为 止 。 


读 取 站 点 URL 列 表 BEM 


读 取 此 URL 网 页 


Y 
超 链接 分 析 
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内 容 分 析 
1 
存 入 文档 库 


1 
删除 此 URL 并 
加 入 VURL 


LH 


图 9-13 zm E LÍENE 
ik. UVURL 是 当前 站 点 未 访问 的 URL. VURL 是 当前 站 点 已 访问 的 URL. 


9.3. 云 计算 平台 的 安全 研究 


9.3.1 云 计算 安全 概述 


云 计算 给 信息 技术 领域 带 来 了 重大 变革 。 这 种 变革 为 信息 安全 领域 带 来 了 巨大 的 
冲击 : 
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CD 各 类 云 计算 应 用 没有 统一 不 变 的 基础 设施 .没有 统一 的 安全 边界 ,很 难 实现 用 户 数 
据 安 全 与 隐私 保护 ; 

(2) 云 平台 中 数据 与 计算 高 度 集中 ,安全 措施 必须 满足 海量 信息 处 理 需求 ; 

(3) 云 服务 所 涉及 的 资源 由 多 个 管理 者 所 有 .存在 各 种 利益 冲突 ,无 法 统一 规划 部 署 安 
全 防护 措施 。 

广义 云 计算 的 安全 性 包括 云 服务 的 保密 性 、 完 整 性 和 可 用 性 。 

1. 保密 性 

保密 性 是 指 对 数据 或 者 信息 的 隐藏 。 安 全 的 系统 必须 确保 对 数据 的 保密 。 数 据 保密 的 
需求 源 自 计 算 机 在 敏感 领域 的 使 用 ,比如 政府 或 者 企业 。 政 府中 的 军事 、 民 事 机 构 经 常 对 需 
要 获得 信息 的 访问 者 设 定 限制 。 云 计算 数据 存储 在 数据 安全 中 心 , 这 就 对 数据 的 保密 性 提 
出 更 高 的 要 求 。 各 云 计算 使 用 者 对 数据 进行 保密 处 理 主要 关注 以 下 方面 内 容 : 

数据 通信 隐私 : 必须 确保 通讯 过 程 中 数据 的 隐私 。 对 于 个 人 而 言 , 隐 私 是 指 每 个 人 应 
具有 对 其 机 密 信息 如 医疗 信息 、 工 作 经 历 和 信用 记录 等 机 密 信息 的 控制 能 力 。 在 商业 活动 
中 ,隐私 包括 了 商业 机 密 、 产 品 设计 信息 、 交 易 过 程 记录 、 竞 争 对 手 分析 以 及 市 场 调 查 和 销售 
计划 等 。 对 于 军事 部 门 而 言 ,隐私 包括 了 诸如 在 收集 和 分 析 人 工 统 计 信 息 的 过 程 中 需要 保 
护 的 人 员 信 息 的 问题 ,还 包括 了 保护 那些 关系 到 军事 武器 的 机 密 信息 的 问题 。 

数据 的 安全 存储 : 必须 确保 敏感 数据 在 存储 过 程 中 的 完整 性 和 隐私 性 , 即 敏感 数据 一 
且 收 集 并 存储 ,存储 敏感 数据 的 数据 库 和 服务 器 必须 确保 敏感 数据 的 完整 性 和 隐私 性 。 

2. 数据 完整 性 

一 个 安全 的 系统 需要 保证 其 存储 的 信息 是 有 效 的 。 云 计算 的 数据 完整 性 是 指数 据 无 论 
存储 在 数据 中 心 ,还 是 传输 在 网 络 中 , 均 不 会 因为 删除 和 修改 而 遭 到 破坏 。 对 于 云 计 算 而 
言 ,由 于 超级 权限 的 存在 ,完整 性 面临 巨大 的 挑战 。 完 整 性 指 的 是 数据 或 者 资源 的 可 信和 度 ， 
通常 使 用 防止 非法 的 或 者 未 经 授权 的 数据 改变 来 表达 完整 性 。 完 整 性 包括 数据 完整 性 ( 即 
信息 的 内 容 ) 和 来 源 完整 性 ( 即 数据 的 来 源 , 常 称 为 认证 )。 信 息 的 来 源 可 能 会 涉及 来 源 的 准 
确 性 和 可 信和 性 ,也 涉及 人 们 对 此 信息 所 贼 予 的 信任 性 。 数 据 完整 性 通常 包括 以 下 方面 : 

(1) 系统 和 客体 权限 控制 访问 应 用 系统 表 和 系统 命令 ,因此 只 有 授权 用 户 能 够 改变 
数据 ; 

(2) 参照 完整 性 是 指 根据 数据 库 中 定义 的 各 种 规则 ,保证 数据 间 一 致 性 的 关系 ; 

(3) 数据 库 必须 具备 保护 数据 免 受 破坏 性 的 病毒 侵害 的 能 力 ; 

(4) 网 络 通信 中 必须 保证 数据 不 受 删 除 、 损 坏 和 窃听 。 

3. 数据 可 用 性 

一 个 安全 的 系统 必须 确保 授权 用 户 无 延迟 的 访问 和 使 用 相应 数据 。 一 般 来 讲 , 可 用 性 
是 指 对 数据 或 者 信息 的 期 望 使 用 能 力 。 可 用 性 是 系统 可 靠 性 与 系统 设计 中 构 一 令 重 要 方 
面 ,因为 一 个 不 可 用 的 系统 带 来 的 后 果 可 能 还 不 如 没有 系统 。 可 用 性 之 所 以 与 安全 相关 是 
因为 攻击 者 会 蓄意 地 使 数据 或 者 服务 失效 ,以 此 来 拒绝 对 数据 或 者 服务 的 访问 。 企 图 破坏 
系统 的 可 用 性 称 为 拒绝 服务 攻击 ,这 可 能 是 最 难 检测 的 攻击 ,因为 这 要 求 能 够 分 析 判 断 出 某 
种 异常 的 访问 模式 是 否 会 带 来 对 数据 或 者 资源 的 蓄意 破坏 。 
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9.3.2 传统 的 数据 安全 威胁 


传统 的 数据 安全 威胁 如 下 : 

1. 客户 端的 安全 性 

云 计算 的 客户 端 主要 有 两 种 模式 : 浏览 器 模式 ,特定 程序 的 模式 。 从 本 质 上 来 讲 两 者 
都 属于 软件 的 范畴 。 目 前 ,浏览 器 是 主要 的 客户 端 。 因 此 简单 分 析 以 下 浏览 器 的 安全 性 。 
目前 市 场 上 的 浏览 器 有 多 种 ,它们 主要 有 类 : 以 微软 IE 为 内 核 的 ,自己 开发 浏览 器 内 核 的 。 
基于 微软 的 正 内 核 浏览 器 是 最 普遍 的 浏览 器 。 虽 然 浏览 器 技术 不 断 进 步 , 但 是 一 个 软件 的 
bug 是 不 可 避免 的 。 自 从 微软 TE 浏览 器 推出 以 来 ,发 现 了 不 少 的 安全 漏洞 。 依 据 年 份 统 
计 , 微 软 IE 浏览 器 自发 布 以 来 总 共 达 到 的 安全 漏洞 数 达 1810 个 之 多 ,在 微软 众多 软件 之 
中 ,是 安全 漏洞 规模 递增 最 快 的 软件 之 一 。 

2. 主 从 结构 的 安全 性 

云 计算 数据 应 用 系统 是 典型 的 主 从 结构 模式 ,其 面临 的 主要 威胁 有 : 

1) 拒绝 服务 攻击 

DDoS 攻击 往往 采取 合法 的 数据 请 求 技 术 , 再 加 上 一 些 禽 偏 机 器 ,造成 DDoS 攻击 ,这 
是 目前 最 难 防御 的 互联 网 攻击 之 一 。 传 统 的 网 络 设备 和 周边 安全 技术 ,例如 防火 墙 和 DS, 
速率 限制 ,. 接 入 限制 等 均 无 法 提供 非常 有 效 的 针对 DDoS 攻击 的 保护 。 它 不 断 对 网 络 服务 
系统 进行 干扰 ,改变 其 正常 的 作业 流程 ,执行 无 关 程 序 使 系统 响应 减 慢 甚 至 瘫痪 ,影响 正常 
用 户 的 使 用 ,甚至 使 合法 用 户 被 排斥 而 不 能 进入 云 网 络 或 不 能 得 到 相应 的 服务 。 通 过 对 主 
从 结构 特点 进行 分 析 , 不 难看 出 ,拒绝 服务 攻击 是 对 主 从 结构 系统 极其 致命 的 一 种 攻击 方 
式 。 一 台 应 用 服务 器 受到 此 类 攻击 不 仅 自身 无 法 访问 ,还 会 使 对 数据 中 心 的 其 他 访问 无 法 
进行 。 拒 绝 服务 攻击 对 一 台 主 机 或 一 个 系统 进行 攻击 时 ,表现 初期 仅仅 是 一 台 主 机 或 一 个 
系统 访问 缓慢 或 不 能 正常 访问 , 随 着 攻击 量 的 增加 和 持续 ,使 访问 连接 数 和 流量 达到 数据 中 
心 当前 最 大 阀 值 ,从 而 使 客户 端 不 能 正常 维护 和 访问 自己 韵 数据 。 

2) 病毒 传播 

云 计算 通过 互联 网 进行 数据 服务 ,因此 无 法 阻止 恶意 者 网 络 传播 计算 机 病毒 。 它 的 破 
坏 性 大 大 高 于 单机 系统 ,而 且 用 户 很 难 防 范 。 现 在 互联 网 上 绝 大 多 数 病毒 更 具有 隐蔽 性 , 且 
传播 越 来 越 快 , 像 蠕 虫 王 病毒 不 到 一 天 就 传 遍 全 球 ; 病毒 制造 技术 持续 提高 。 不 仅 结合 黑 
客 程序 ,可 以 强行 破解 和 泄密 ,而 且 交叉 感染 ,感染 后 形成 病毒 群集 体 攻击 ,因而 病毒 危害 急 
剧 增 大 。 云 计算 的 应 用 系统 多 为 虚拟 机 上 的 Linux 操作 系统 ,Linux 是 典型 的 开源 操作 系 
统 ,这 就 使 内 核 级 的 , 深 隐藏 的 病毒 木马 更 加 防不胜防 。 

3) 结 点 故障 

云 计算 服 务 系统 自 2008 年 7 月 8 日 起 频繁 出 错 , 目 前 几 近 崩溃 。 响 应 速度 问题 尤为 突 
出 ,即使 在 大 型 局 域 网 上 响应 速度 也 不 容 乐观 。 究 其 原因 ,主要 是 机 器 的 故障 引起 的 。 数 据 
中 心 结 点 的 故障 引起 了 用 户 数 据 的 丢失 和 破坏 不 容 忽 视 。 因 此 结 点 的 故障 也 是 主 从 结构 所 
面临 的 威胁 之 一 。 

3. 通信 安全 性 

在 网 络 环境 中 ,通常 将 对 安全 的 攻击 分 为 两 类 : 主动 攻击 和 被 动 攻击 。 
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被 动 攻击 不 会 导致 对 网 络 传递 的 信息 做 任何 改动 ,而 且 网 络 的 状态 也 不 被 改变 。 因 此 
被 动 攻击 主要 威胁 信息 的 保密 性 ,常见 的 被 动 攻击 手段 有 : 

CD 偷窃 : 用 各 种 可 能 的 手段 窃取 网 络 中 的 信息 资源 和 敏感 信息 。 

(2) 分 析 : 通过 对 网 络 自 锯 长 期 监视 。 应 用 统计 分 析 等 方法 对 诸如 通信 频 度 .通信 流 
量 以 及 信息 流向 等 参数 进行 研究 从 丽 得 出 有 价值 的 信息 。 

主动 攻击 则 意 在 算 改 网 络 中 传输 的 信息 以 达到 攻击 者 的 骨 的 。 常 见 的 主动 攻击 手 
BA: 

CD 冒充 : 通过 欺骗 通信 系统 (或 用 户 ) 达 到 非法 用 户 冒 充 成 为 合法 用 户 ,或 者 特权 小 
的 用 户 冒 充 成 为 特权 大 的 用 户 的 目的 。 

(2) 算 改 : 改变 消息 内 容 , 删 除 其 中 的 部 分 内 容 ,用 一 条 假 消 息 代替 原始 消息 ,或 者 将 
某 些 额外 消息 插入 其 中 。 


9.3.3 新 的 数据 安全 威胁 


对 数据 安全 来 讲 , 除 了 传统 的 安全 威胁 外 ,由 于 各 种 原因 上 述 云 计算 的 数据 不 可 避免 的 
带 来 新 的 安全 威胁 。 新 的 数据 安全 威胁 主要 有 以 下 几 个 方面 : 保密 失效 威胁 ,动态 完整 性 
威胁 ,分 布 式 可 用 性 威胁 。 

1. 保密 失效 威胁 

传统 的 密码 学 的 数据 安全 保护 方式 在 云 计算 中 不 能 直接 采用 ,因为 在 云 计 算 中 ,用 户 失 
去 了 对 数据 的 控制 。 因 此 对 于 云 计算 中 的 数据 完整 性 验证 必须 在 没有 完全 数据 知识 的 情况 
下 进行 。 假 设 每 个 用 户 的 许多 不 同 的 数据 存储 在 云 中 并 且 必 须 确保 用 户 的 数据 的 进行 安全 
验证 ,验证 数据 存储 的 准确 性 挑战 性 极 大 。 

2. 动态 完整 性 威胁 

云 计算 不 仅仅 是 数据 仓库 。 云 中 的 数据 被 用 户 不 断 的 更 新 ,包括 插入 ,删除 ,修改 等 , 因 
此 ,确保 数据 在 动态 环境 中 的 安全 是 十 分 必要 的 。 然 而 ,这 些 动态 特性 使 传统 的 完整 性 技术 
徒劳 无 功 ,必须 有 新 的 解决 方案 。 

3. 分 布 式 可 用 性 威胁 

云 计算 的 发 展 是 运行 在 同步 性 一致 性 和 分 布 式 的 数据 中 心 的 。 用 户 数 据 的 元 余 存 储 
在 多 个 不 同 的 物理 空间 中 降低 了 用 户 的 完整 性 威胁 。 因 此 ,分 布 式 的 确保 数据 准确 的 存储 
协议 对 于 构造 一 个 健壮 的 ,安全 的 数据 存储 系统 十 分 的 重要 。 


9.3.4 云 计算 的 数据 安全 

数据 安全 意 指 通 过 一 些 技术 或 者 非 技 术 的 方式 来 保证 数据 的 访问 是 受到 合理 控制 ,并 
保证 数据 不 被 人 为 或 者 意外 的 损坏 而 泄露 或 更 改 。 其 包括 以 下 三 种 数据 安全 类 风险 。 

1. 访问 控制 风险 

对 于 企业 的 数据 访问 权限 . 除 企业 用 户外 , 云 计算 的 运营 商 有 数据 优先 访问 权 的 ,而 企 
业 的 数据 很 可 能 面临 被 泄露 的 安全 隐患 。 云 计算 服务 商 托管 企业 数据 ,但 是 数据 的 管理 和 


安全 由 企业 自己 来 承担 负责 。 如 果 云 计算 服务 商 对 于 企业 数据 的 仅仅 存放 , 则 表示 企业 客 
户 无 法 对 被 托管 数据 加 以 有 效 利用 。 云 计算 厂商 采用 分 权 分 级 管理 。 为 了 防止 云 计算 平台 
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供应 商 ”* 偷 疯 ? 客 户 的 数据 和 程序 ,可 以 采取 分 级 控制 和 流程 化 管理 的 方法 。 银 行 是 一 个 很 
好 的 例子 ,银行 虽然 存储 着 所 有 客户 银行 卡 的 密码 ,但 即使 是 银行 内 部 员工 ,也 无 法 获取 客 
户 的 密码 信息 ; 同时 ,银行 系统 内 也 有 一 系列 流程 防止 出 现 “ 内 鬼 ”。 例 如 ,将 云 计算 的 运 维 
体系 分 为 两 级 ,一 级 是 普通 的 运 维 人 员 ,他 们 负责 日 常 的 运 维 工作 ,但 是 无 法 登录 物理 主机 ， 
也 无 法 进入 受 控 的 机 房 ,接触 不 到 用 户 数据 ; 二 级 是 具备 核心 权限 的 人 员 ,他 们 虽然 可 以 进 
和 机房 也 可 以 登录 物理 主机 ,但 受到 运 维 流程 的 严格 控制 。 

2. 数据 操作 /管理 风险 

使 用 云 计 算 服务 ,企业 用 户 其 实 并 不 是 很 清楚 自己 的 数据 具体 的 托管 服务 器 的 位 置 以 
及 具体 是 哪个 服务 器 管理 。 增 强 安全 防范 意识 。 幸 运 的 是 ,一 点 点 常识 和 一 些 简单 的 正确 
电脑 操作 练习 可 以 将 这 类 安全 性 失误 的 影响 降 至 最 低 ,避免 将 你 的 机 密 资 料 放 在 云端 上 ,如 
果 你 真 的 放 了 ,例如 利用 网 上 银行 时 ,避免 在 网 络 咖啡 厅 、 学 校 或 图 书馆 内 的 公用 电脑 上 进 
行 ,也 别 太 随 便 给 出 自己 真正 的 联络 资料 ,避免 每 个 账号 都 使 用 同一 个 密码 ,就 算 只 更 改 一 
个 字母 也 好 。 云 计算 下 增强 安全 意识 ,清楚 地 认识 到 风险 ,并 采取 必要 的 防范 措施 来 确保 
安全 。 

3. 数据 恢复 风险 

云 计算 中 需要 对 数据 进行 有 效 的 备份 ,保证 在 灾难 发 生 的 时 候 数据 能 及 时 地 被 恢复 。 


9.4 本 章 小 结 


9. 1 节 对 对 等 网 络 的 可 信和 及 公正 性 问题 进行 了 研究 ,综述 了 当前 研究 中 采用 的 激励 机 
制 、 信 任 机 制 和 安全 机 制 来 控制 结 点 的 自私 行为 和 恶意 行为 。 随 着 对 等 网 络 应 用 日 益 广泛 ， 
安全 问题 也 将 越 来 越 突出 ,对 对 等 网 络 的 安全 研究 工作 将 更 为 系统 和 深入 。 

9. 2 节 对 云 计 算 平 台 的 研究 背景 研究 动机 曾 述 ,综述 了 综述 了 当前 研究 进展 现状 。 

9.3 节 重 点 介绍 了 云 计 算 的 相关 概念 和 虚拟 化 技术 。 从 云 计算 本 身 的 特点 出 发 ,分 析 
了 云 计算 的 优势 ,介绍 了 几 种 云 计算 中 的 关键 技术 和 安全 问题 。 
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结 与 展望 第 10 章 


10.1 对 等 网 络 的 总 结 与 展望 


10.1.1 对 等 计算 总 结 


如 何 定位 资源 和 查找 资源 是 P2P 系统 应 用 所 要 解决 的 核心 问题 , 它 是 由 
拓扑 、 路 由 和 查询 这 三 个 紧密 相关 的 设计 技术 所 决定 的 。 本 书 紧密 围绕 此 核 
心 问题 ,结合 最 新 研究 前 沿 ,针对 DHT 机 制 的 本 质 , 从 拓扑 、 路 由 和 查询 这 三 
个 方面 展开 研究 ,主要 的 研究 内 容 如 下 : 

(1) 提出 了 在 动态 网 络 环境 下 自 适 应 的 拓扑 调整 模型 (Session Heterogeneity 
Topology .SH T) ,能 够 较 好 地 控制 DHT 拓扑 维护 开销 并 提高 了 系统 资源 的 可 
用 性 ,有 效 解决 了 DHT 拓扑 维护 开销 问题 。SHT 利用 结 点 的 会 话 异 构 特 性 
将 DHT 重 构 , 将 DHT 的 拓扑 构造 变 成 仅 由 稳定 结 点 组 成 ,从 而 大 大 降低 了 
拓扑 适应 动态 环境 的 调整 开销 。 研 究 揭示 出 会 话 时 间 短 的 结 点 是 拓扑 调整 
的 主要 扰动 因子 ,因此 建议 拓扑 设计 时 将 它们 聚焦 于 稳定 结 点 ,并 由 稳定 结 
点 代理 它们 的 请 求 , 从 而 在 保证 它们 能 够 正常 使 用 系统 的 同时 又 将 它们 的 扰 
动 限制 于 局 部 稳定 结 点 的 动荡 。 理 论 分 析 和 实验 表明 ,一 个 合理 的 聚 簇 大 小 
存在 ,使 得 拓扑 达到 近似 最 优化 ,此 时 减少 的 开销 达到 近似 最 小 。 

(2) 提出 了 基于 小 世界 理论 的 概率 缓存 链 技 术 , 通 过 附加 少量 开销 ,能 够 
较 大 地 减少 DHT 路 由 跳 数 。 理 论 分 析 和 仿真 实验 表明 在 保持 高 度 分 散 的 路 
由 低 状 态 下 ,可 实现 较 高 的 路 由 效率 ,为 路 由 的 状态 与 效率 折 中 问题 提供 了 
一 个 可 行 的 高 效 的 解决 方案 。 据 此 设计 的 PCCAN 系统 ,在 保持 O(1) 的 路 由 
状态 下 将 CAN 的 路 由 路 径 长 度 由 OC“) 改 进 到 OClog? (mw%))。 研 究 利 用 
T DHT 路 由 的 贪 禁 特 性 及 查询 的 反馈 机 制 , 构 造 了 概率 缓存 的 路 由 快捷 链 ， 
由 此 在 路 由 表 链 间 形 成 了 一 个 小 世界 ,使 得 系统 的 路 由 性 能 得 到 全 局 性 的 优 
化 。 设 计 充 分 考虑 了 静态 与 动态 下 的 收敛 问题 ,并 设计 主动 查询 机 制 以 适应 
动态 环境 并 加 速 收敛 ,使 系统 性 能 得 到 保障 。 由 于 设计 采用 的 是 查询 反馈 机 
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制 以 及 缓存 技术 ,具有 较 强 的 现实 意义 。 特 别 对 于 当前 的 一 大 类 采用 低 状 态 DHT 路 由 表 
的 具有 高 度 松 散 结构 的 PZP 系统 ,能 够 在 轻微 的 修改 下 达到 路 由 效率 的 可 观 的 提高 。 

G) 提出 了 基于 向 量 空间 模型 (VSM) 的 相似 文档 搜索 方法 和 技术 ,使 得 DHT 查询 能 
支持 多 关键 字 查询 和 相似 文档 搜索 ,从 而 突破 了 DHT 查询 的 单 关 键 字 的 精确 匹配 约束 ,使 
DHT 查询 的 应 用 范围 大 为 扩展 ,有 效 解决 了 DHT 查询 的 应 用 局 限 性 问题 。 研 究 在 两 方面 
对 DHT 查询 进行 了 改进 。 一 方面 ,目前 基于 DHT 的 多 关键 字 查询 技术 ,通常 采用 单 关 键 
字 的 组 合 查询 的 模式 , 带 来 较 多 的 网 络 开销 。 通 过 VSM 技术 将 多 个 关键 字形 成 了 向 量 空 
间 模 型 VSM 中 的 向 量 ,并 使 得 查询 相关 于 此 向 量 , 从 而 能 够 支持 多 关键 字 查询 并 去 除了 单 
关键 字 组 合 查询 所 需 的 大 量 网 络 开销 。 另 一 方面 ,当前 DHT 查询 的 局 限 性 本 质 是 由 于 哈 
希 使 得 查询 失去 了 语义 性 支持 , 仅 能 够 支持 精确 匹配 。 而 利用 VSM 技术 进行 文档 标识 的 
喻 希 空间 重 映 射 ,使 得 DHT 文档 标识 具有 相似 性 的 语义 ,从 而 支持 相似 性 文档 搜索 。 

(4) 在 框架 模型 中 的 overlay 层 , 针 对 Chord 协议 进行 深入 研究 : 首先 ,在 Chord 满 环 
情况 下 ,对 Chord 路 由 进行 了 形式 化 描述 ,将 路 由 过 程 抽象 成 一 个 整数 由 一 个 数列 受 限 的 
线性 表示 问题 ,给 出 了 Chord 协议 的 最 优 路 由 表 结 构 ,并 证 明了 在 满 环 情况 下 三 倍数 Chord 
路 由 表 是 最 优 路 由 表 ; 其 次 , 当 Chord 非 满 环 情况 下 ,提出 了 对 Finger 表 进 行 重新 构造 的 
方法 ,实验 表明 ,该 重 构 有 效 地 提高 了 Overlay 层 的 路 由 效率 。 


10.1.2 P2P 技术 展望 


P2P 系统 中 DHT 机 制 应 用 是 个 广泛 而 重要 的 研究 课题 ,本 书 的 工作 只 是 初步 地 解决 
其 中 的 一 些 问题 ,在 本 书 基础 上 可 进一步 开展 的 工作 包括 : 

CD 路 由 的 响应 时 延 。 本 书 的 小 世界 模型 引入 在 Overlay 层 上 达到 了 性 能 的 优化 , 进 
一 步 的 问题 是 : 如 何在 Overlay 层 优化 的 同时 又 保证 路 由 的 位 置 ,能 否 建立 相关 理论 模型 。 
小 世界 路 由 提供 了 更 广泛 的 邻居 路 由 结 点 ,有望 为 这 个 问题 提供 良好 的 切入 点 。 

(2) 拓扑 的 融合 。 本 书 研究 的 控制 拓扑 开销 的 思想 在 于 渐 近 构造 一 个 由 稳定 结 点 组 成 
的 DHT 拓扑 ,其 本 质 是 一 种 混杂 拓扑 。 进 一 步 可 以 考虑 将 非 结 构 化 拓扑 与 结构 化 拓扑 融 
合 。 因 为 非 结构 化 拓扑 能 够 较 好 地 适用 于 动态 环境 ,而 结构 化 拓扑 能 够 保证 良好 性 能 , 因 
而 ,这 两 种 主流 拓扑 的 融合 是 研究 的 一 个 有 趣 的 方向 。 发 表 在 最 近 的 IPTPS04 会 议 的 文 
音 趾 提出 的 观点 是 : 在 非 结 构 化 为 底层 的 Gnutella 网 络 中 形成 一 个 DHT 小 社区 。 这 在 一 
定 程 度 启示 了 这 种 融合 的 可 行 性 ,但 仍然 有 大 量 的 挑战 性 工作 有 待 研 究 。 

(3) 查询 的 DHT 标识 语义 。 本 书 的 研究 将 信息 检索 领域 中 的 VSM A DHT 技术 相 结 
合 , 把 相似 性 语义 融入 DHT 标识 中 ,从 而 支持 多 关键 字 查询 和 相似 文档 搜索 。 注 意 到 
DHT 查询 是 以 DHT 标识 为 查询 关键 字 的 ,当前 这 种 哈 希 化 的 DHT 标识 仅 能 够 支持 单 关 
键 字 的 精确 匹配 ,但 我 们 将 相似 语义 加 入 后 则 可 以 支持 多 关键 字 的 查询 。 事 实 上 ,DHT 标 
识 的 语义 对 于 DAT 查询 来 说 是 非常 重要 的 ,是 对 传统 的 DHT 查询 方式 的 一 种 重大 变革 ， 
因而 是 一 个 非常 有 意义 的 研究 方向 。 本 书 提供 了 对 DHT 标识 语义 的 初步 探索 ,进一步 的 
研究 可 以 考虑 利用 各 种 哈 希 语义 模型 以 及 结合 信息 检索 的 新 技术 来 探索 DHT 标识 的 更 丰 
富 的 语义 支持 。 如 考虑 让 DHT 标识 提供 层次 化 语义 从 而 直接 支持 层次 化 的 目录 文件 
locality 和 让 DHT 标识 提供 位 运算 语义 从 而 直接 支持 多 关键 字 的 组 合 查询 。 

今后 在 P2P 信息 检索 领域 的 进一步 研究 工作 可 以 从 以 下 这 几 个 主要 方面 人 手 : 
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COD 基于 机 器 学 习 来 逐步 理解 用 户 偏好 的 PP 信息 检索 系统 。 可 以 从 用 户 查询 的 偏 
好 、 上 下 文 环 境 发 现 用 户 的 查询 目标 文档 范围 和 分 类 ,并 在 该 分 类 上 做 进一步 的 查询 、 检 索 
和 多 次 反馈 ,并 能 快速 地 、 高 质量 地 返回 用 户 希 望 的 结果 。 该 系统 也 能 够 直接 根据 查询 词 精 
确 判 断 所 属 的 类 别 范畴 ,并 在 生成 的 局 部 专题 中 查找 ,提供 给 查询 用 户 。 这 样 同样 可 以 提高 
主题 挖掘 的 深度 和 准确 性 。 

(2) 基于 统计 加 语义 的 对 等 网 络 信息 检索 。 可 以 利用 自然 语言 来 进行 查询 、 检 索 , 这 个 
方面 需要 解决 如 文本 挖掘 (Text Mining) 和 自然 语言 处 理 (NLP) 等 关键 技术 。 另 外 ,在 P2P 
文档 相似 性 判断 过 程 中 所 使 用 的 向 量 空间 模型 表示 方面 ,可 以 同时 结合 计算 语言 学 、 自 然 语 
言 处 理 等 相关 知识 ,使 用 概念 空间 代替 目前 使 用 的 词 空 间 , 用 来 提高 检索 精度 ,改善 信息 检 
索 质 量 。 随 着 NLP 技术 的 发 展 和 成 熟 ,利用 人 类 语言 查询 将 成 为 重要 的 信息 获取 手段 。 对 
数据 的 推理 和 联想 成 为 可 能 ,基于 语义 的 信息 检索 和 知识 发 现 将 成 为 下 一 代 对 等 网 络 信息 
检索 的 重要 研究 方向 ,也 是 重大 的 挑战 。 

G) 在 P2P 网 络 中 ,从 多 个 结 点 分 布 式 地 检索 出 各 自 的 结果 然后 进行 结果 排序 和 合并 ， 
也 是 急需 解决 的 一 个 问题 。 


10.2 网 格 计算 的 总 结 与 展望 


10.2.1 网 格 计算 总 结 


随 着 计算 机 技术 和 网 络 技术 的 发 展 ,以 及 日 益 增 长 的 计算 力 需求 ,诞生 了 网 格 计算 。 构 
建 一 个 网 格 系统 ,需要 研究 信息 服务 .数据 管理 .安全 机 制 等 技术 。 同 时 ,在 网 格 计算 中 , 资 
源 管理 对 高 效 合 理 利用 计算 资源 起 着 十 分 重要 的 作用 。 网 格 资源 具备 动态 性 、 异 构 性 和 自 
治 性 的 特征 ,需要 对 网 格 资源 管理 和 调度 的 关键 技术 作 相 关 研 究 。 网 格 资源 的 动态 性 、 自 治 
性 和 异 构 性 ,使 得 网 格 资源 提供 者 和 使 用 者 具有 对 等 网 络 的 特点 ,因此 有 必要 将 对 等 网 络 方 
法 引入 到 网 格 资源 管理 中 。 

本 书 的 网 格 计算 部 分 首先 介绍 了 网 格 资源 管理 和 调度 策略 的 一 些 基 本 概念 和 主要 的 研 
究 内 容 , 然 后 结合 网 格 自身 特点 和 发 展 趋势 ,对 其 中 的 几 个 关键 问题 进行 了 深入 的 研究 , 包 
括 网 格 系统 的 体系 结构 ,网 格 资源 信息 的 表示 方法 、 资 源 管理 和 任务 调度 算法 以 及 负载 均 
衡 。 为 了 验证 本 书 提出 的 模型 和 算法 的 有 效 性 ,基于 一 个 网 格 实验 平台 DDGrid 一 一 新 药 研 
发 网 格 ,我 们 进行 了 大 量 的 实验 ,实验 结果 证 明了 本 书 提出 的 模型 和 算法 的 有 效 性 。 

本 书 的 网 格 计算 部 分 主要 研究 了 以 下 几 个 方面 : 

CD 在 分 析 了 网 格 自身 特点 和 发 展 趋势 的 基础 上 ,将 对 等 网 络 方法 引入 网 格 的 资源 管 
理 和 调度 ,设计 了 基于 超级 结 点 对 等 网 络 的 网 格 资源 管理 体系 结构 。 这 种 集中 式 和 分 布 式 
的 混合 结构 设计 ,能 够 解决 现 有 网 格 系统 采用 的 集中 式 管理 容易 引起 的 单 点 失效 .性 能 瓶颈 
等 问题 ,从 而 可 以 更 好 地 描述 网 格 资源 的 动态 性 、 自 治 性 等 特点 ,使 网 格 系统 具有 更 强 的 鲁 
棒 性 和 自 适应 性 ,并 且 有 利于 制定 优化 网 格 资源 管理 和 调度 的 策略 、 算 法 。 进 一 步 , 根 据 网 
格 资源 提供 者 的 IP 层 信息 生成 含有 路 由 信息 的 Overlay Network 拓扑 ,并 且 使 用 有 向 图 表 
示 该 拓扑 结构 。 这 种 使 用 有 向 图 进行 网 格 拓 扑 结 构 表 示 的 方式 在 能 够 准确 描述 网 格 资源 提 
供 者 的 计算 能 力 的 同时 ,还 能 够 弥补 其 他 现 有 的 资源 信息 表示 模型 的 Overlay 层 路 由 信息 
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不 能 精确 反映 IP 层 路 由 情况 的 不 足 。 同 时 这 种 简单 的 描述 方式 有 利于 网 格 资源 调度 器 发 
掘 网 格 资源 提供 者 和 网 格 任务 之 间 的 对 应 关系 。 

(2) 提出 了 基于 树 匹配 的 nTreeMatch 算法 。 算 法 结合 DAG 图 的 任务 表示 形式 ,通过 
树 形 数据 结构 匹配 的 方法 解决 了 网 格 资源 和 网 格 任务 间 的 映射 问题 。 同 时 算法 充分 利用 
overlay 拓扑 中 结 点 的 路 由 信息 ,以 轻 量 附 加 开销 来 有 效 减少 overlay 层 上 的 路 由 跳 数 ,使 得 
overlay 层 上 的 路 由 跳 数 尽量 接近 IP 层 上 的 路 由 跳 数 ,降低 RDP。 理 论 和 模拟 实验 表明 在 
大 规模 的 网 格 系统 中 ,算法 在 进行 资源 调度 时 可 以 获得 较 高 的 路 由 效率 ,为 路 由 的 状态 与 效 
率 折 中 问题 提供 了 一 个 可 行 的 解决 方案 。 该 算法 尤其 适用 于 为 特定 的 科学 应 用 而 设计 的 专 
用 计算 网 格 的 资源 调度 。 

(3) 针对 基于 Web Service 的 通用 网 格 系统 的 资源 调度 ,提出 了 基于 资源 发 现 的 
GChord 算法 。 考 虑 到 网 格 的 动态 性 特征 ,GChord 算法 采用 服务 发 现 的 方式 解决 资源 调度 
问题 ,将 资源 需求 按照 Chord 路 由 协议 在 网 格 中 转发 ,改变 了 传统 的 集中 式 调度 方法 采取 
的 信息 收集 方式 ,能够 实时 反映 网 格 结 点 的 工作 负载 状态 ,有 效 解决 由 于 信息 过 时 、 数 据 不 
一 致 而 引起 的 任务 再 调度 问题 。 实 验证 明 ,GChord 算法 可 以 实现 网 格 系统 的 实时 资源 调 
JE ,并 且 使 得 网 格 系统 保持 良好 的 负载 均衡 状态 。 

(4) 为 解决 网 格 资源 调度 中 动态 负载 均衡 的 挑战 ,在 研究 了 多 代理 技术 和 网 格 计算 相 
互 融 合 的 发 展 趋势 的 基础 上 ,提出 了 基于 多 代理 协同 计算 的 rwAgent 算法 。 算 法 利用 多 代 
理 技术 ,通过 代理 的 自治 性 和 智能 学 习 , 实 现 网 格 资源 的 分 散 调度 ,同时 可 以 获得 很 好 的 负 
载 均衡 效果 。 严 格 的 数学 建 模 和 理论 分 析 证 明 ,rwAgent 算法 可 以 实现 资源 调度 过 程 中 网 
格 系统 的 全 局 负载 均衡 ,实验 结果 证 明了 算法 的 有 效 性 和 优越 性 。 


10.2.2 网 格 计 算 展望 


随 着 网 格 技 术 的 发 展 ,用 户 对 网 格 系统 的 服务 质量 提出 了 更 高 的 要 求 ,因此 ,网 格 资源 
管理 和 调度 的 研究 领域 出 现 了 新 的 挑战 。 本 书 在 网 格 资源 管理 方式 和 并 行 任务 调度 上 做 了 
一 定 的 研究 ,但 要 完全 满足 人 们 对 网 格 系统 的 需求 ,还 有 许多 地 方 值得 进一步 研究 ,具体 
Wr. 

(1) 拓扑 对 于 网 格 系统 性 能 有 重要 的 影响 ,直接 相关 于 网 格 资源 管理 和 调度 算法 的 路 
由 性 能 ,因此 网 格 系统 地 拓扑 结构 应 该 能 够 适应 动态 的 网 格 环境 的 变化 ,并 与 物理 网 络 紧 密 
结合 。 本 书 使 用 类 似 超 级 结 点 的 P2P 网 络 来 表示 网 格 系统 的 Overlay Network 拓扑 结构 ， 
而 现在 P2P 的 拓扑 研究 又 有 了 新 的 进展 ,例如 : 控制 拓扑 维护 的 开销 ,来 增强 拓扑 对 于 网 络 
的 动态 适应 性 ; 克服 DHT 结构 的 平坦 化 .加 入 现实 中 的 层次 特征 的 层次 式 拓扑 结构 ; 结合 
结构 化 和 非 结构 化 两 种 拓扑 优点 的 混合 式 拓 扑 结构 。 因 此 ,未 来 的 工作 中 我 们 将 对 于 新 型 
P2P 拓扑 结构 如 何 和 网 格 系统 相 结构 进行 研究 ,进一步 提高 网 格 资源 管理 的 有 效 性 。 

(2) 本 书 的 网 格 计算 部 分 在 网 格 资源 管理 和 调度 算法 方面 的 研究 工作 均 基 于 一 个 前 
提 , 即 物理 网 络 的 性 能 是 预先 确定 的 。 例 如 使 用 系统 的 benchmark 信息 将 网 格 结 点 可 提供 
的 计算 资源 量化 为 一 个 确定 的 值 ,在 未 来 的 研究 工作 中 ,我 们 将 考虑 开发 网 络 性 能 预测 工具 
包 , 更 精确 .实时 地 表示 物理 网 络 的 性 能 。 

(3) 本 书 的 网 格 计算 部 分 的 rwAgent 算法 使 用 多 代理 协同 计算 计算 技术 进行 网 格 资源 
的 动态 调度 。 在 未 来 的 工作 中 ,我 们 会 考虑 建立 代理 知识 库 或 者 使 用 蚂蚁 克隆 技术 ,使 得 代 
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理 可 以 根据 以 前 的 先 验 知识 ,快速 找到 满足 要 求 的 网 格 结 点 ,以 缩短 任务 需求 和 可 利用 资源 
间 的 匹配 时 间 , 以 此 来 提高 rwAgent 算法 的 效率 。 

(4) 参与 网 格 计算 的 网 格 资源 除了 本 书 考虑 的 存储 空间 、CPU、 内 存 等 因素 之 外 ,还 包 
括 网 络 带宽 、 链 路 延迟 等 因素 ,因此 ,在 未 来 的 工作 中 ,我 们 还 将 考虑 这 些 因素 对 资源 调度 的 
影响 。 


10.3 云 计算 的 总 结 与 展望 


云 计算 是 个 很 热 的 话题 ,现在 可 以 说 我 们 将 要 进入 了 云 计算 的 时 代 。 人 们 高 度 重视 云 
计算 的 原因 ,一 方面 是 云 计算 这 种 商业 模式 孕育 着 巨大 的 商业 机 遇 , 另 一 方面 , 云 计算 作为 
互联 网 资源 的 新 的 配置 方式 , 它 将 改变 整个 互联 网 的 价值 链 。 


10.3.1 云 计算 总 结 


分 布 式 文件 系统 (DFS) 是 一 种 网 络 文件 系统 , 它 分 布 在 多 个 计算 机 结 点 上 ,每 个 结 点 只 
会 直接 存 取 整个 文件 系统 的 一 部 分 。 我 们 参考 了 两 个 比较 成 熟 的 DFS 架构 一 一 GFS 和 
Hadoop ,设计 并 实现 了 CFS 文件 系统 。CFS 是 一 个 面向 数据 密集 型 应 用 的 分 布 式 文件 系 
统 ,整个 系统 由 Master 结 点 .数据 结 点 和 客户 端 组 成 ,具有 一 定 的 容错 性 和 可 扩展 性 。 测 试 
和 实验 表明 ,CFS 具备 了 文件 系统 的 基本 功能 ,实现 了 对 数据 的 流 式 读 写 操作 ,并 有 一 定 的 
容错 功能 。 

借鉴 了 GFS 和 HDFS 的 设计 思想 ,根据 测试 和 实验 ,系统 实现 了 分 布 式 文件 系统 的 一 
些 基 本 功能 ,具备 一 定 的 容错 性 ,并 达到 了 理想 的 运行 效率 。 按 照 最 初 的 设计 ,CFS 应 能 屏 
蔽 操作 系统 和 硬件 的 异 构 性 ,实现 跨 平 台 的 系统 。 


10.3.2 云 计 算 展 望 


随 着 云 计算 模式 的 进一步 发 展 成 熟 , 还 有 许多 云 计算 的 问题 期 待 进一步 研究 ,具体 
Wr. 

CD 云 平台 数据 安全 性 问题 。 保 存在 “ 云 ”" 中 的 文件 可 能 包含 私人 数据 。 当 前 的 云 从 本 
质 上 来 说 是 提供 了 公共 (而 不 是 私有 ) 网 络 , 因 此 会 遭受 更 多 的 攻击 ,用户 需要 更 多 的 保证 ， 
而 不 仅仅 是 让 这 些 公 司 简单 宣称 “我 们 已 经 隐藏 了 您 的 数据 ”。 这 也 就 是 为 什么 云 计算 的 安 
全 性 至 今 仍 被 多 数 的 企业 和 用 户 所 质疑 。 为 此 ,在 Gartner 发 布 的 一 份 名 为 《 云 计算 安 全 风 
险 评估 》 的 报告 中 , 列 出 了 云 计 算 技术 存在 的 七 大 风险 , 即 特权 用 户 的 接 人 、 可 审查 性 、 数 据 
位 置 .数据 隔离 .数据 恢复 .调查 支持 和 长 期 生存 性 。 

(2) 服务 的 可 用 性 和 性 能 的 不 可 预知 性 。 现 今 , 为 了 提高 可 用 性 ,解决 方案 就 是 多 云 计 
算 , 还 有 ,可 用 性 相关 的 另 一 个 问题 是 DDoS(CDistributed Denial of Service ,分布 式 拒绝 服 
务 ) 攻 击 。 由 于 弹性 , 云 计 算 将 攻击 目标 从 SaaS 提供 商 转 移 到 能 够 马上 吸引 攻击 并 且 具 有 
DDoS 攻击 保护 能 力 的 效用 计算 提供 商 。 还 有 一 个 待 解 决 的 问题 是 性 能 的 不 可 预知 性 。 

G) 声誉 和 法 律 危机 。 一 个 用 户 的 恶意 操作 会 影响 到 整个 “ 云 ” 的 声誉 。 创 建 类 似 于 信 
任 邮件 服务 那样 的 声誉 保护 服务 将 可 能 会 成 为 一 个 机 遇 。 另 外 一 个 问题 是 法 律 责任 的 转 
移 一 一 当 出 现 问 题 时 , 云 计 算 提 供 商 将 会 希望 由 用 户 去 承担 相应 法 律 责任 ,而 不 要 将 责任 转 


244 
等 网 络 .网 格 计算 与 云 计 算 一 一 原理 与 安全 


嫁 给 他 们 。 当 前 软件 许可 证 通常 限定 在 运行 软件 的 机 器 上 ,用 户 购买 软件 并 按 年 支付 维护 
费用 。 许 多 云 计算 提供 商 从 一 开始 就 倾向 于 开源 软件 ,这 正 是 因为 商业 软件 许可 证 模式 并 
不 适合 效用 计算 。 首 要 的 机 遇 要 么 开源 持续 流行 ,要 么 商业 软件 公司 改变 他 们 的 许可 证 结 
构 , 让 其 更 加 适合 云 计算 。 还 有 一 个 办 法 是 鼓励 软件 公司 制定 销售 政策 来 向 云 计算 提供 产 
品 。 将 软件 公司 销售 部 门 的 一 些 反 对 派 转 到 支持 云 计算 者 的 阵营 中 来 。 
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